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Woord vooraf 


Van 2000 tot en met 2003 heeft het Nederlands Historisch Data Archief (NHDA) 
een project uitgevoerd om de aanpak, de mogelijkheden en de kosten te verken- 
nen van het archiveren van bestaand maar niet geordend digitaal wetenschappe- 
lijk materiaal. Het project kreeg de naam ADA: Archiveren van Digitaal Acade- 
misch Erfgoed. 

Het NHDA werd in 2005 onderdeel van DANS, Data Archiving and Networ- 
ked Services, dat in dat jaar werd opgericht en expliciet werd belast met het be- 
vorderen en faciliteren van de archivering van onderzoeksdata in Nederland. Te- 
rugkijkend kan dus worden vastgesteld dat het ADA-project een vingeroefening 
was voor een van de activiteiten die DANS inmiddels als dienst in de academische 
wereld aanbiedt onder de naam ADA: Academische Data Archivering. Vanuit dat 
perspectief is dit verslag geschreven. Het biedt een beknopte rapportage van het 
ADA-project en geeft tegelijk inzicht in de mogelijkheden van de nu door DANS 
aangeboden diensten. 

Het oorspronkelijke project is gesubsidieerd vanuit het programma Innova- 
tie Wetenschappelijke Informatievoorziening (iWI) van Stichting SURF en uitge- 
voerd op het Meertens Instituut. Het NHDA maakte ten tijde van het onderzoek 
deel uit van het NIWI, het Nederlands Instituut voor Wetenschappelijke Informa- 
tiediensten, een instituut van de Koninklijke Nederlandse Akademie van Weten- 
schappen (KNAW). 

De werkzaamheden zijn voornamelijk verricht door projectmedewerker Tom 
van den Berg en projectleider Heiko Tjalsma. Daarnaast is er werk uitgevoerd 
door enkele andere toenmalige NIWI-medewerkers, in het bijzonder Richard Bos 
en Bram Buitendijk. 

Vanuit het Meertens Instituut werd het project intensief begeleid door Koos 
Schell, terwijl assistentie werd verleend door haar collega's Carinqua van Wijk, 
Edwin Brinkhuis en Jan Pieter Kunst. Stagiair Ron Edel deed veel inventariserend 
werk. 

Het project is begeleid door Peter Doorn, als hoofd van het NHDA destijds 
werkzaam bij het NIWI. Waardevolle adviezen kwamen ook van René van Horik, 
Marjan Balkestein en Annelies van Nispen (NHDA/NIWI), Frank Peeters (Afde- 
ling Neerlandistiek/NIWI), Edo Dooijes (Computermuseum UvA) en Henk Voor- 
bij (KB). Op eerdere versies van dit rapport is kritisch en deskundig commentaar 
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geleverd door René van Horik (NHDA/NIWI), door Cor van der Meer en Ruud 
Bronmans (beiden Steinmetzarchief/NIWI) en door Frans van der Kolff (NIWI). 

Al deze personen verdienen dank voor hun welkome bijdrage. Dat geldt ook 
voor degenen die hebben meegewerkt aan het marktonderzoek en nog eens extra 
voor het Meertens Instituut, dat zijn data als proefveld beschikbaar stelde. 

Van dit rapport zijn hoofdstuk 3 en de bijlagen B, C en D oorspronkelijk door 
Tom van den Berg geschreven, terwijl hoofdstuk 6 door Peter Doorn werd gele- 
verd. De andere hoofdstukken en bijlage A (met bijdragen van Tom van den Berg) 
zijn geschreven door Heiko Tjalsma, die ook voor de eindredactie tekende. De de- 
finitieve versie van dit rapport is bewerkt door Martijn de Groot. 


Heiko Tjalsma 
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Het ADA-project: achtergrond, 
doel en aanpak 


1.1 Inleiding 

Vrijwel de gehele Nederlandse wetenschappelijke productie is tegenwoordig digi- 
taal. Hoezeer de academische wereld daaraan al gewend is, betrekkelijk nieuw is 
nog de vraag hoe het staat met de bewaring van die productie op lange termijn. 
Zijn de betrokken data en documenten over vijf of tien jaar nog toegankelijk en 
begrijpelijk? 

De afgelopen jaren is het besef gegroeid dat ons digitale erfgoed in gevaar is. 
Het probleem geniet toenemende aandacht bij bibliotheken, overheidsarchieven 
en het bedrijfsleven, maar ook in de academische wereld. Het ADA-project Archi- 
veren van Digitaal Academisch Erfgoed is uitgevoerd om een bijdrage te leveren 
aan de oplossing van deze problematiek, speciaal gericht op de onderzoekswe- 
reld. 


1.2 Achtergrond van het onderzoek 

In de huidige praktijk op het gebied van digitale archivering bestaat grote behoefte 
aan pilot-projecten om te experimenteren met langetermijnbewaring. De laatste 
jaren zijn bibliotheken en archieven op uiteenlopende schaal met zulke projecten 
begonnen. 

Er zijn echter verschillende archiveringsstrategieén die daarbij als uitgangs- 
punt kunnen dienen. Uitersten zijn enerzijds emuleren en anderzijds migreren 
en converteren. Bij emulatie worden bestanden in het oorspronkelijke bestands- 
formaat bewaard en worden systemen ontwikkeld waardoor de originele software 
kan blijven functioneren. Bij migratie en conversie worden de bestanden omgezet 
naar formaten die door nieuwe software kan worden begrepen. Dit zijn, bij voor- 
keur, standaardformaten.” Bij het e-depot van de Koninklijke Bibliotheek (KB) 
wordt geéxperimenteerd met emulatie, maar de meeste data-archieven op het ter- 
rein van de alfa- en gammawetenschappen, waaronder die van DANS, maken ge- 


1 Bijvoorbeeld het e-depot project van het Rotterdamse Gemeentearchief. 


2 Voor een samenvatting zie Rothenberg (1999) en Bearman (1999). 
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bruik van migratie en conversie. Ook het ADA-project heeft zich vooral hierop 
geconcentreerd.” 

Daarnaast wordt er verschillend gedacht over de plaats van bewaring. Kunnen 
bestanden beter door centrale, bij voorkeur landelijke, depots worden bewaard of 
moet dat juist decentraal gebeuren bij de instelling, die de bestanden heeft gecre- 
eerd? Er is tot nu toe niet veel onderzoek verricht naar de vraag welke van deze 
twee opties de voorkeur verdient. Juist over dit aspect zou het ADA-project meer 
inzicht kunnen verschaffen.‘ 

Ook maakt het bij de aanpak van het digitale bewaarprobleem verschil om 
wat voor type bestanden het gaat (tekstbestanden, databases, grafische bestanden), 
en door welk soort instelling ze bewaard worden. Er zijn verschillende functio- 
naliteiten nodig voor de langetermijnbewaring van elektronische publicaties, digi- 
tale archiefstukken en digitale onderzoeksbestanden. Zo is het voor elektronische 
publicaties niet alleen van belang om de inhoud maar ook om de vorm zo goed 
mogelijk te bewaren, zeker in nationale depotbibliotheken met hun taak op het 
terrein van het nationale culturele erfgoed. Bij archiefstukken is juist de authen- 
ticiteit van het stuk van cruciaal belang vanwege de juridische status (bewijsvoe- 
ring). Bij wetenschappelijke databestanden worden vorm en authenticiteit over 
het algemeen van minder groot belang geacht dan het gebruiksgemak voor secun- 
daire analyse. Bij deze laatste groep van bestanden is echter vaak het ontbreken 
van regels voor het bewaren een reëel probleem, waardoor niemand zich uiteinde- 
lijk verantwoordelijk voelt. 

Deze functionele verschillen vloeien voort uit verschillen in bewaarcontext: 
vanuit welke optiek wordt het bewaren als belangrijk gezien: een wetenschappe- 
lijke, administratieve of culturele? Verschillen in bewaarcontext maken op zichzelf 
nog geen afzonderlijke bewaarinstituten noodzakelijk. Integendeel: er zijn goede 
redenen om elektronische publicaties samen met de bijbehorende onderzoeksdata 
in dezelfde instelling, bijvoorbeeld een universiteit, te bewaren. Dat dit op het mo- 
ment niet of nauwelijks gebeurt wordt primair veroorzaakt door beleidskeuzen, 
prioriteiten en vooral de historisch gegroeide werkterreinen van de onderscheiden 
instellingen. 

Op dit terrein is er zodoende sprake van een belangrijke organisatorisch-insti- 
tutionele factor, die aangeeft aan dat het digitale bewaringsprobleem bepaald niet 
alleen een technische dimensie heeft. Organisatorische kwesties spelen een min- 
stens zo belangrijke rol. Eén van de conclusies van eerder uitgevoerd onderzoek’ 
was dat in het bijzonder voor de bewaring van de digitale wetenschappelijke bron- 
nen in Nederland op enkele uitzonderingen na geen goede voorzieningen aanwe- 
zig zijn. Zelfs van bewaarbeleid bleek vaak geen sprake te zijn. Het ADA-project 


3 Voor het e-depot zie Van der Werf-Davelaar (2001). Recenter: Oltmans en Van Wijngaarden 
(2004). 


4 Zie bijvoorbeeld Hedstrom (Londen 1995) of Doorn en Tjalsma (1997). 
5 Mostert e.a. (1998). 
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richtte zich op hetbewaren van ditonderzoeksmateriaal, dat wil zeggen van weten- 
schappelijke databestanden. 


1.3 Doel van het ADA-project 

Doel van het ADA-project was het beantwoorden van de vraag naar de haalbaar- 

heid van het aanbieden van digitale archiveringsdiensten aan de wetenschappelij- 

ke wereld: universiteiten en onderzoeksinstituten, in eerste instantie op het gebied 
van de humaniora en de sociale wetenschappen. Dat is een andere activiteit dan 
wat tot nu toe gebruikelijk was bij de bestaande data-archieven, zoals het Stein- 
metzarchief of het NHDA. Onderzoeksbestanden werden bij het data-archief ge- 
deponeerd door individuele onderzoekers, onderzoekgroepen, instituten en or- 
ganisaties als het Sociaal en Cultureel Planbureau of het Centraal Bureau voor de 

Statistiek. Meestal werd voor deze deponering noch voor het verdere beheer en de 

ontsluiting door de rechthebbenden betaald. 

Bij de digitale archiveringsdiensten waarop dit project zich richt kan aan ver- 
schillende mogelijkheden gedacht worden, in oplopende graad van intensiteit: 

— het aanbieden van consultancy of cursussen op het gebied van technische, do- 
cumentaire of organisatorische aspecten; 

— het verzorgen van de fysieke opslag van de bestanden en assisteren bij de docu- 
mentatie terwijl het beheer, met name de toegankelijkstelling, in handen blijft 
van de instelling; 

— centrale archivering: de bestanden gaan volledig over in beheer van het cen- 
trale data-archief, inclusief de beschikbaarstelling. 

Dit onderzoek moest informatie opleveren over de vraag op welke wijze zulke 
archiveringsdiensten uitvoerbaar zijn, of ze kostendekkend kunnen worden uitge- 
voerd en of wetenschappelijke organisaties erin geïnteresseerd zijn. 


1.4 Opzet van dit verslag 

Om vorengenoemde vragen te beantwoorden heeft om te beginnen een oriënte- 
rend onderzoek plaatsgevonden naar de nieuwste ontwikkelingen op het gebied 
van de langetermijnbewaring (hoofdstuk 2). Daarnaast is een marktonderzoek 
uitgevoerd, om na te gaan in hoeverre er in wetenschappelijk Nederland vraag is 
naar de bedoelde vormen van dienstverlening (hoofdstuk 4). Het belangrijkste on- 
derdeel was echter het pilot-project ‘Meertens Data waarin de wetenschappelijke 
onderzoeksbestanden van het Meertens Instituut zijn gearchiveerd (hoofdstuk 3). 
Dit instituut doet ‘etnologisch onderzoek van de functie, de betekenis en de on- 
derlinge samenhang van cultuuruitingen alsmede taalstructureel, dialectologisch 
en sociolinguïstisch onderzoek naar taalvariatie binnen het Nederlands in Neder- 
land, met een nadruk op grammaticale en naamkundige variatie. Het koesterde 
al de wens een beleid te ontwikkelen voor het bewaren van vooral oudere onder- 
zoeksbestanden. Daartoe zouden deze eerst geïnventariseerd moeten worden. Het 
instituut leende zich daarom uitstekend voor het ADA-project en was ook zelf tot 
medewerking bereid. 
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Conclusies en aanbevelingen op grond van het ADA-project biedt hoofdstuk 5, 
terwijl het laatste hoofdstuk tenslotte de ADA-aanpak beschrijft die uit dit project 
voor de toekomst als perspectiefrijk naar voren is gekomen. 
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Recente ontwikkelingen in de 
langetermijnbewaring 


2.1 Het aandachtsgebied 

Bij de oriéntatie voor dit project op ontwikkelingen in de digitale archivering is 
gekeken naar drie categorieën ‘aangrenzende’ instellingen: de wetenschappelijke 
data- en tekstarchieven, de bibliotheken en de overheidsarchieven. Het bewaren 
en ontsluiten van het cultureel erfgoed is voor elk van deze drie een belangrijke 
taak, soms zelfs de belangrijkste. 

Door de snelle ontwikkelingen van de laatste jaren zijn veel instellingen ge- 
dwongen te gaan nadenken over de juiste vorm van bewaring en ontsluiting van 
het nu digitaal geworden cultureel erfgoed. In een aantal gevallen zijn pilotprojec- 
ten gaande en hier en daar is al met concrete preserveringsprogrammas begonnen. 
Helaas is er in de meeste landen tussen deze verschillende initiatieven weinig co- 
ordinatie, mede door de eerder genoemde verschillen in bewaarcontext. 

Die verschillen kunnen echter niet wegnemen dat het bij de complexe digi- 
tale bewaringsproblematiek voor een belangrijk deel om dezelfde problemen gaat. 
Het duidelijkst komt dat tot uiting bij de verschillende bewaarstrategieën. Zo ex- 
perimenteert de KB in het kader van het e-depot met langetermijnbewaring van 
elektronische documenten op basis van emulatie. De resultaten daarvan kunnen 
bruikbaar zijn voor veel andere erfgoedinstellingen. Ook andere aspecten als au- 
thenticiteit en integriteit van databestanden zijn in elke context van belang, al 
wordt er in de ene omgeving veel meer belang aan gehecht dan in de andere. 


2.2 De internationale stand van zaken 


2.2.1 Wetenschappelijke archieven 


Al sinds de jaren zestig functioneren er archieven voor sociaalwetenschappelijke 
databestanden, voornamelijk in Europa en Noord-Amerika.’ In de jaren tachtig 
zijn daar historische data-archieven en tekstarchieven bijgekomen. Hun belang- 
rijkste taak is het bewaren en toegankelijk houden van bestanden, waarbij mo- 


6 Voor een overzicht, zie <http://www.nsd.uib.no/cessda/europe.htmip> 
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gelijk hergebruik een belangrijk criterium is. De gehanteerde strategie is meest- 
al conversie naar een software-onafhankelijk of gestandaardiseerd opslagformaat 
als ASCII of XML. Sociaal-wetenschappelijke data-archieven converteren meestal 
naar het SPSS-portable file format; tekstarchieven maken gebruik van de markup 
languages SGML of XML en historische data-archieven gebruiken ASCII en te- 
genwoordig op experimentele basis ook wel XML. Multimediale bestanden en op 
internet gepubliceerde databases vragen om nieuwe archiveringsoplossingen. 

De data-archieven kennen een internationale standaard voor metadatasyste- 
men, het Data Documentation Initiative van de internationale organisatie van 
data-archieven IASSIST. Dit DDI is geschikt voor verschillende soorten bestanden 
(database én tekstbestanden, multimediabestanden en websites) en kent lokale va- 
rianten. Het Nederlandse DDDI (Dutch DDI) leent zich voor het beschrijven van 
zowel sociaal-wetenschappelijke als historische databestanden.” 


2.2.2 Wetenschappelijke bibliotheken 


Vooral de nationale depotbibliotheken hebben zich noodgedwongen al sterk met 
de problematiek van de langdurige opslag van elektronische publicaties bezigge- 
houden. Een aantal, zoals de Bibliothèque Nationale de France en sinds kort ook 
de KB, experimenteert met het archiveren van websites. In de wetenschappelij- 
ke wereld spelen collaboratories een rol, waarbij onderzoeksdata (zowel ruw als 
bewerkt), softwaretools en publicaties met een verschillende status op één website 
worden samengebracht. 

In de wereld van de bibliotheken wordt vaak het OAIS-model aangetroffen. Dit 
Open Archival Information System is een referentiemodel voor alle relevante pro- 
cessen, zoals acquisitie, verwerking en ontsluiting van data. Er bestaan of ontstaan 
toepassingen voor specifieke bewaarcontexten, zoals voor depotbibliotheken het 
DSEP (Deposit System for Electronic Publications) dat in Nederland door de KB 
wordt gebruikt. Ook de National Library of Australia gebruikt OAIS. 

Vermeldenswaard is het CEDARS-project van de universiteiten van Leeds, 
Cambridge en Oxford om strategische, methodologische en praktische problemen 
op te lossen en handleidingen te maken voor wetenschappelijke digitale archive- 
ring. Ook dit project is echter sterk toegespitst op elektronische publicaties. Bin- 
nen CEDARS, dat overigens ook het OAIS-model als uitgangspunt heeft gekozen 
voor de langetermijnbewaring, is de data-archiveringsstrategie nog een belangrijk 
discussiepunt. Zo wordt met name over de emulatie-optie heel verschillend ge- 
dacht.” 


7 Zie: <http://www.icpsr.umich.edu/DDI/index.htmb 


8 Voor het OAIS zie Dollar (1999) en voor het DSEP: <http://nedlib.kb.n 
9 Voor meer informatie over de CEDARS en CAMILEON projecten zie: <http://www.leeds 


ac.uk/cedars/index.htmp en 
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2.2.3 Overheidsarchieven 


Op het gebied van digitale archivering gebeurt bij overheidsarchieven wel het no- 
dige, maar toch bestaat er een major imbalance tussen de verschillende archief- 
diensten in Europa, zo bracht een onderzoek in opdracht van de Europese Com- 
missie in 2001 aan het licht. In het noordwesten van Europa is men veel actiever 
op dit terrein dan elders. Veel werk wordt geïsoleerd verricht.'® Op dit moment is 
er nog geen grootschalig digitaal overheidsarchief, zelfs niet in Noord-Amerika 
dat internationaal voorop loopt. De Amerikaanse National Archives and Records 
Administration (NARA) dat eveneens OASIS als basismodel gebruikt, heeft een 
aantal vaak grote projecten maar een grootschalige infrastructuur ontbreekt tot 
nu toe." 

Het archiveren van digitale archiefstukken (electronic records) stelt overigens 
andere eisen maar vraagt ook een andere organisatievorm dan die voor de ande- 
re twee categorieén. Dit verklaart ook de sterke toenadering van de laatste jaren 
tussen de archiefwereld en die van de documentaire informatievoorziening. Het 
streven is daarbij uiteindelijk tot een samenvoeging te komen van archief en DIV- 
afdeling.” 

Interessant is de werkwijze van het National Digital Archive of Datasets 
(NDAD) in Londen, de digitale bestanden van de Britse overheid moet bewaren. 
De toegepaste methodiek is zeer praktisch en concentreert zich op het vaststellen 
van eenduidige protocollen en richtlijnen voor het beschrijven en overdragen van 
bestanden. De protocollen zijn zo ontworpen dat ze ook in gecompliceerde situa- 
ties gebruikt kunnen worden, waarbij verschillende partijen zeggenschap over de 
data hebben.” Net als in de ADA-opzet worden bestanden beschreven en overge- 
dragen door een andere instantie dan die ze gevormd heeft. 

In het archiefwezen is ISAD-G een internationale standaard voor metadata. 
Deze is sterk ontwikkeld op het terrein van het ontstaan en de vorming van ar- 
chiefstukken met alle daarbij behorende bureaucratische processen, maar veel 
minder op het gebied van het documenteren van bestanden, met name ten aan- 
zien van IT-specificaties.'* 


2.2.4 Grensoverschrijdende activiteiten 


Er worden wel pogingen gedaan om de contextgebonden ontwikkelingen binnen 
deze drie categorieën instellingen beter te coördineren. Zo organiseert het DLM- 
Forum van de Europese Commissie een tweejaarlijks congres over langetermijn- 
bewaring van digitale archiefstukken en tracht het standaardisatie tot stand te 


10 Schürer (2001). 

11 Zie voor een overzicht Thibodeau (2002). 

12 Zie bijvoorbeeld Beagrie en Greenstein (1998). 
13 Ashley (2002). 

14 Uitgebreider hierover Shepherd en Smith (2000). 
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brengen door het uitgeven van best practices. En de Engelse Digital Preservation 
Coalition (DPC) functioneert nationaal als overlegorgaan voor de bibliotheek- en 
archiefwereld en de wetenschappelijke data-archieven op het terrein van digitale 
langetermijnbewaring. 

In een aantal internationale projecten werken instellingen uit de verschillende 
categorieén samen. Op het gebruik van het OAIS is al gewezen. Het grootschalige 
InterPARES-project (International Research on Permanent Authentic Records 
in Electronic Systems) met de School of Library, Archival and Information Stu- 
dies in Vancouver als hoofduitvoerder, tracht selectiemethoden en functionele ei- 
sen te formuleren, die authenticiteit van digitale documenten garanderen in de 
bibliotheek- en archiefsfeer. Recent en veelbelovend is het Open Archives Ini- 
tiative (OAI) dat zich richt op uitwisselbaarheidsstandaarden, met als primaire 
doelstelling om de toegang tot elektronische publicaties in elektronische bewaar- 
plaatsen (institutional repositories) te verbreden. De gekozen werkwijze maakt het 
mogelijk dat databestanden verspreid zijn opgeslagen, terwijl uitwisselbaarheid 
wordt bereikt door een verplicht formaat voor metadata: de Dublin Core Metada- 
ta Element Set, gestructureerd als XML-document. Het OAI is in eerste instantie 
opgezet voor een gemakkelijke uitwisseling van e-prints, maar kan in principe tot 
alle soorten elektronische documenten uitgebreid worden. Daarbij wordt onder- 
scheid gemaakt tussen data providers (die één of meer repositories onderhouden) 
en service providers (die de metadata van de data providers gebruiken en toegan- 
kelijk maken) Io 


2.3 De Nederlandse situatie 
In Nederland is een aantal interessante ontwikkelingen gaande, maar deze hebben 
geen betrekking op onderzoeksbestanden. Zo acquireert het e-depot van de KBal- 
leen digitale publicaties. Het e-archiving project van de Universiteitsbibliotheken 
van Delft, Utrecht en Maastricht ontwikkelde een interessante XML-container- 
oplossing voor met name elektronische publicaties”, en het Archipol-project van 
de Rijksuniversiteit Groningen richtte zich op de websites van de politieke par- 
tijen — een voor Nederland uniek project voor webarchivering.'* Het programma 
EDDA (Effectieve Digitale Duurzaamheid Amsterdam) van het Gemeentearchief 
Amsterdam kent in hoofdlijnen eenzelfde doel als het ADA-project, maar wordt 
anders uitgewerkt omdat het is gericht op het overbrengen van bestanden van de 
lopende administratie naar het statische archief.'? 

De Rijksoverheid heeft in oktober 2001 het Testbed Digitale Bewaring in het 
leven geroepen om ‘de toegankelijkheid van betrouwbare overheidsinformatie in 


15 Zie <http://www.interpares.org/> 


16 zie < http://www.openarchives.org/ > 
17_<http://www.library.tudelft.nl/ws/b/about_the_library/strategy/strategic_projects 
18 <http://www.archipol.nl/ > 

19 <http://gemeentearchief.amsterdam.nl/concerndiensten/hulpmiddelen/edda/index.nl.html> 
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het digitale tijdperk te waarborgen, nu maar ook in de toekomst. Het programma 
heeft een aantal publicaties opgeleverd waarin vooral softwareformaten zijn getest 
op duurzaamheid. Het heeft vooral betrekking op administratief-bestuurlijke be- 
standen en processen.” 

Het door SURF gecoördineerde DARE-programma, waarin de Nederlandse 
universiteiten, de KB, de KNAW en NWO samenwerken, kwam in de laatste fase 
van het ADA-project op. Op basis van het hierboven beschreven OAI-model zijn 
in dit kader institutional repositories opgezet om wetenschappelijk onderzoeks- 
materiaal wereldwijd toegankelijk te maken, dus zoveel mogelijk binnen het pu- 
blieke domein.” Binnen DARE-projecten zijn ook drie data-projecten uitgevoerd: 
op het terrein van de archeologie (e-depot Nederlandse Archeologie: DNA), de 
onderwijskunde (Data Onderwijskundig Nederland Online Research: DONOR) 
en de hydrologie (Data Archiving River Environment Luxemburg: DareLux). 


20 <http://www.digitaleduurzaamheid.nl/home.cfm> 


21 DARE staat voor Digital Academic Repositories. Zie: <http://www.surf.nl/themas/index2 
php?oid=1 o> 
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De case study ‘Meertens Data’ 


3.1 Inleiding 
Dit hoofdstuk bevat een verslag in hoofdlijnen van de werkzaamheden in de case 
study ‘Meertens Data. In dit verslag wordt de volgorde aangehouden zoals die bij 
de deponering van bestanden in het data-archief wordt doorlopen: inventarisa- 
tie, selectie, archivering inclusief beschrijving (het toekennen van metadata). Deze 
aanduidingen zijn weliswaar gangbaar binnen het data-archief, maar ze wijken af 
van de in de klassieke ‘papieren’ overheidsarchieven gebruikte terminologie. 
Inventariseren betekent een overzicht maken van alle bestanden. Daarvoor is 
enige technische, algemene, inhoudelijke en organisatorische basisinformatie no- 
dig. Zulke summiere documentatie geeft een eerste inzicht in de archiveringsmoge- 
lijkheden en maakt selectie in grote lijnen mogelijk. In de volgende fase, de selec- 
tie, wordt bepaald welke bestanden wel en niet gearchiveerd worden. Archiveren 
is dan het toegankelijk maken en houden van de bestanden: opslag maar ook be- 
schrijven van de data. Dit laatste gebeurt door metadata toe te kennen met techni- 
sche en meer contextuele informatie. 


3.2 Inventarisatie 


3.2.1 Overzicht van het materiaal en de data-infrastructuur 


Om een goed beeld te kunnen krijgen van het digitaal erfgoed van het Meertens 
Instituut was inzicht nodig in de aanwezige data-infrastructuur — de bestanden, de 
media, de software en de hardware — en haar geschiedenis. 

Begin jaren tachtig zette het Meertens Instituut de eerste stappen op het ge- 
bied van de automatisering. De toenmalige afdeling Dialectologie begon toen via 
een terminalverbinding zijn wetenschappelijke data te verwerken in samenwer- 
king met het computercentrum van de Universiteit van Amsterdam. In lijn met 
het gebruik bij andere taal- en letterkunde-disciplines aan de Nederlandse universi- 
teiten werd kort na de intrede van de personal computer overgestapt op het Macin- 
tosh-platform, dat er ook nu nog is. Vanaf omstreeks 1988 kreeg het instituut de 
beschikking over lokale afdelingsnetwerken, die geleidelijk zijn uitgebreid en aan- 
eengebreid tot één AppleTalk netwerk. Eind 1995 werd een structurele upgrade 
van het netwerk uitgevoerd. 


ARCHIVEREN VAN DIGITAAL ACADEMISCH ERFGOED 


19 


20 


Tabel 3.1 Aantallen gegevensdragers naar soort 


Drager Aangeleverd Uitgevallen Geinventariseerd 
Diskettes 3/2” 1497 36 1461 
Diskettes 572” 68 14 54 
Diskettes totaal 1565 50 1515 
Magnetische tapes 4 1 3 
CD-ROMS 23 23 
SyQuest back up-media 6 6 
DAT medium 1 1 

Totaal 1599 52 1547 


Een eerste overzicht van het grote aantal relevante bestanden bood het enige 
jaren daarvoor gemaakte inventarisatierapport Gouden eieren.” De bestanden die 
nog actief werden gebruikt bevonden zich op de server; die waarvoor dat niet 
(meer) gold op diverse losse media (tabel 3.1). Terwille van de overzichtelijkheid 
is er in overleg met het Meertens Instituut voor gekozen het onderzoek te concen- 
treren op de laatstgenoemde groep bestanden. Deze groep, bij het Meertens Insti- 
tuut gewoonlijk aangeduid als het materiaal uit ‘de kast; is verspreid over een groot 
aantal uiteenlopende media waarvan het merendeel 3%” diskettes (tabel 3.1). 

Bij het Meertens Instituut werden deze data als afgesloten beschouwd, maar 
wel van belang geacht. Het ADA-project zou duidelijkheid verschaffen: welke be- 
standen zijn het waard om bewaard te worden en welke niet? 

De variëteit aan bestanden bleek groot. Hoewel de bedoeling was geweest om 
alle bestandssoorten te verwerken, zijn de audiodata en de images uiteindelijk niet 
in het project betrokken. Bij de eerstgenoemde ging het vaak om min of meer 
commerciële producten (cd’s met volksmuziek) of om digitaal gemaakte opnamen 
uit het eigen archief (spraak, vraaggesprekken en gezongen opnamen”) Voor de 
digitale archiefopnamen geldt dat de organisatie goed is toegerust om te reageren 
op calamiteiten, zoals selectief verslechterende deelverzamelingen. Deze kunnen 
snel worden geselecteerd om dan opnieuw te worden overgezet op een nieuwe 
drager. 

Daarnaast valt ook het aanbod aan beeldbestanden te verwaarlozen — niet ver- 
wonderlijk gezien de datering van het materiaal uit ‘de kast. Eind 2002 werd nog 
een aanvullende verzameling met jongere data in het ADA-project opgenomen: 
publieksgegevens van het project ‘Brieven aan de Toekomst’ uit 1998. Hieronder 
bevond zich wel een aantal beeldbestanden. 

Het aanwezige materiaal bleek dus in grote lijnen overeen te komen met de 
verwachting, die voor een belangrijk deel gebaseerd was op het “Gouden Eieren- 
rapport. Naast software in alle soorten en maten bestond het digitale materiaal 
voornamelijk uit tekstbestanden of data van gestructureerde aard (databases). 


22 Gouden eieren (1997). 


23 Deze laatste verzameld door Ate Doornbosch. 
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3.5” diskettes en harde schijf-data (selectie) 


5.25” diskettes 


Figuur 3.1 Meertens Data: aantal bestanden naar jaar, waarin het jaar is afgeleid van 
de wijzigingsdatum. 


3.2.2 Het inventarisatieproces 


In de fase van de inventarisatie wordt een overzicht van alle bestanden gemaakt. 
De opgenomen informatie moet de basis vormen voor de later te maken keuzes bij 
de classificatie en de selectie. Er waren verschillende soorten gegevensdragers of 
media in het spel, te weten: 

— Mac-data 

— MS-Dos data 

— Data op andere media of platforms 

Elk van deze drie trajecten wordt hierna in hoofdlijnen besproken. 


Mac-data 

Van november 2000 tot april 2001 duurde bij het Meertens Instituut de inventari- 
satie van de oude digitale data op het Apple-Macintosh-platform. De NHDA-on- 
derzoekers leverden slechts het ontwerp voor een datatabel, gebaseerd op het bij 
hun instituut gebruikte documentatieschema (DDDI) met beschrijvingselementen 
per bestand. 

Het te inventariseren materiaal was verspreid over vele honderden 3%” disket- 
tes, die werden genummerd en vervolgens in de datatabel ingevoerd samen met 
gegevens over de inhoud. Volgens plan werd begonnen met de invoer van gegevens 
per bestand maar al vrij snel werd overgestapt op een hoger beschrijvingsniveau, 
de dataset. Dat kon inhouden dat een map (directory) met bij elkaar behorende 
bestanden als ‘dataset’ werd gedocumenteerd. Maar deze eenheid kon nog ruimer 
worden opgevat. Zo werden ook tot eenzelfde project behorende databestanden, 
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die op één diskette of op een reeks diskettes waren geplaatst, als één ‘dataset’ inge- 
voerd. Dezelfde werkwijze werd ook gehanteerd voor de meeste softwarepakket- 
ten. 

De informatie die in een record is verzameld, kan zodoende betrekking heb- 
ben op één bestand maar ook op een verzameling van bestanden - een gebrek aan 
eenduidigheid dat in de latere fasen soms moeilijkheden bleek op te leveren bij de 
analyse en beoordeling van deze databank. 

Eind 2001 waren er 1938 eenheden, met in totaal 7.406 Mb aan data, bij het 
Meertens Instituut verwerkt en gedocumenteerd. Later bleek dat dit uiteindelijk 
verreweg het grootste bestanddeel was van de door het Meertens Instituut aan- 
geleverde data. Helaas is het, door de verder gevolgde werkwijze, niet mogelijk 
gebleken het uiteindelijk totaal aantal bestanden in deze inventarisatie te recon- 
strueren. 


MS-Dos data: inventarisatie bij het NHDA 
Van de overige media bleken alleen de MS-DOS geformatteerde floppy’s verwerk- 
baar. In mei 2001 ontvingen we de eerste ca. zestig oude 514” floppy-disks. In de 
eindfase van het project, eind 2002, werd ook nog een pakket 3%” diskettes in be- 
handeling genomen. In de voorselectie werden elf diskettes uitgefilterd vanwege 
de aard van hun gegevens.” Van de rest werd eerst bepaald of ze onderzoeksdata 
bevatten, om ze als waardevolle bestanden te kunnen indelen in de groep ‘Meer- 
tens Data, dan wel in een restgroep met bestanden waarvan de relatie met het 
ADA-thema twijfelachtig leek. De definitieve selectie daarvan vond uiteraard later 
bij het Meertens Instituut plaats. Een handvol van deze floppies kon niet gelezen 
worden en is doorgespeeld naar het Computer Museum (zie III). Uiteindelijk be- 
stond de subset in totaal uit 701 bestanden en 13,2 Mb aan data. 

De later verwerkte dataset van ongeveer 45 3% “-diskettes bevatte de publieks- 
reacties op het project ‘Brieven aan de Toekomst. Deze data zijn semi-automatisch 
geïnventariseerd. Totalen van deze subset: 439 bestanden, 9976 Kb. 


Data op andere media of platforms: Computer Museum en Inventarisatie 
NHDA 

Een aantal gegevensdragers behorend bij verouderde of in onbruik geraakte me- 
dia die niet meer bij het Meertens Instituut of het NHDA konden worden gelezen, 
is bij het Computer Museum van de Universiteit van Amsterdam gebracht in de 
hoop dat ze daar weer toegankelijk gemaakt konden worden. Het ging om de vol- 
gende media: 


24 Hieronder vallen onder meer versies van de NS-reisplanner, werkkopieën van het DOS 
PC-besturingssysteem. Ofschoon niet in lijn met het eerder omschreven uitgangspunt was 
het evident dat dergelijke minder relevante dataverzamelingen de procedure slechts zouden 
vertragen. 
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- SyQuest removable harddisk cartridges Eind 1995 heeft op het Meertens Instituut 
een vernieuwing van het computernetwerk plaatsgevonden. Het is hoogstwaar- 
schijnlijk tegen deze achtergrond dat het gebruik van deze ‘zip’-media als extra 
back-up faciliteit valt te verklaren. Analyse van de aanwezige directorystructu- 
ren levert de schatting op dat het om een kopie gaat van tien à twaalf harde schij- 
ven. In totaal bevatten deze zes back-up media 10.566 bestanden (695.120 Kb). 


- Mac 3%” diskettes Een klein deel van de 3%” diskettes vertoonde schijffouten; 
deze zijn aan het Computer Museum doorgegeven. Twee konden alsnog worden 
gelezen. Totaal: 34 bestanden (1003 Kb). 


- Magneetbanden (mainframe computer SARA) Van drie van de vier nog aanwe- 
zige magnetische tapes kon de inhoud gekopieerd worden. Eén exemplaar bleek 
leeg. De bitstream indeling” op de tapes zou op de PC de informatie slechts als 
een ongestructureerde brij weergeven. Daarom zijn de gegevens omgezet naar 
ASCII en in tabelvorm gestructureerd. Deze banden bleken drie databestanden 
te bevatten met in totaal 39.486 Kb aan gegevens. 


- Floppy-disks (5M”) Van deze vijf floppies bleken er twee leesbaar. De twee ove- 
rige diskettes behoorden tot dezelfde set met een afwijkend platform: geformat- 
teerd als Digital Rainbow CP/M. 


In juli 2001 is het materiaal door het Computer Museum in leesbare vorm overge- 
zet op CD-ROM, in Mac-formaat. In totaal zijn zo 10.603 bestanden extern gere- 
cupereerd, met een gezamenlijke omvang van ca. 718 Mb.” 

Bij de terugkeer van dit materiaal leidde extrapolatie van het grote aantal be- 
standen naar de ruim tien maal grotere reeds aanwezige set van Mac-data tot een 
schatting van in totaal meer dan honderdtien duizend aanwezige bestanden. Met 
het oog op dit grote aantal moesten vervolgstappen waar mogelijk worden geau- 
tomatiseerd. Catalogi van de digitale informatie werden dan ook zoveel mogelijk 
automatisch gemaakt, in de vorm van lijsten met bestanden of van een numerieke 
samenvatting met aantallen bytes, submappen en bestanden per directory. Deze 
uitvoer vormde de kern van een tabel met metadata. Met behulp van de hierbij 
ontwikkelde aanpak kon een snelle inventarisatie worden gerealiseerd. 

Tabel 3.2 geeft de totalen van alle geïnventariseerde data, met de aantallen die 
na de eerste selectie overbleven. Clusters zijn groepen bij elkaar horende bestan- 
den; meer hierover in paragraaf 3.2.3. 


25 C.D.C. Display Code, 1600 bpi. 
26 De set 5%” floppies niet inbegrepen. 


DE CASE STUDY ‘MEERTENS DATA’ 


23 


24 


Tabel 3.2 Resultaten werkproces Inventarisatie: fase I 


Omschrijving /eenheid Geinventariseerd Over na selectie 
Data in Mb 8136 321 
Clusters 1460 323 


Van slechts 524 van de in totaal 1460 clusters zijn de bestanden geinventariseerd. 
Het ging daarbij in totaal om 18480 bestanden, waarvan er na selectie 2979 over- 
bleven. De overige 936 clusters zijn nooit verder geinventariseerd. 


Aan het einde van de inventarisatiefase was duidelijk geworden dat de selectie een 
iteratief proces is: om goed te kunnen selecteren moet vaak verdergaand worden 
geinventariseerd, teneinde zekerheid te krijgen om welk bestand het gaat. Een ver- 
antwoorde selectie is afhankelijk van goede inventarisatiegegevens. Daarbij bleek 
een praktische procedure van groot belang. Daarin spelen drie processen een rol: 
— clustering van data (paragraaf 3.2.3), 

— classificatie (paragraaf 3.2.4), 

— iteratieve bewerking. 


3.2.3 Clustering van de data 


Het onderscheiden van de afzonderlijke bestanden en hun begrenzingen bleek een 
lastig proces. Wat als bestand gezien kon worden, of als een groep bestanden, kon 
per medium verschillen. Op losse gegevensdragers waren de grenzen eenvoudig 
aan te geven: meestal is de floppy zelf de eenheid of dataset. Voor informatie op 
harde schijf ligt dit anders, en vooral bij grote gegevensverzamelingen zoals com- 
puter back-ups leverde de afbakening van de dataset een probleem op. Inventari- 
satie op twee niveaus, eerst op hoger ‘dataset’-niveau en dan op bestandsniveau, 
was vereist. 

Ten behoeve van het hogere niveau zijn de objecten geclusterd. Afzonderlijke 
onderdelen van een back-up, subdirectories met gelijkwaardige informatie, wer- 
den gehergroepeerd tot ‘data clusters, die vervolgens bij het inventarisatieproces 
het eerste niveau van beschrijving vormden waarbij de oorspronkelijke padstruc- 
tuur intact bleef. De clustering werd uitgevoerd door het Meertens Instituut zon- 
der dat daarbij vaste criteria bestonden. Minimaal gold een drietal normen: de 
logische relatie van het object tot nabij liggende directories of submappen, een 
functionele toetsing om te beoordelen of de informatie tot dezelfde categorie be- 
hoorde (paragraaf 3.2.4), en de herkomst: de eigenaars of auteurs van de bestan- 
den waren soms herkenbaar in de naamgeving. 

Het resultaat was de zogenaamde clustertabel (onderdeel van de BIOM cata- 
logus, zie bijlage C). Het toekennen van metadata en het waarderen en uitvoeren 
van andere bewerkingen kon nu worden toegepast op veel minder eenheden van 
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meestal grotere omvang. De informatie van de twaalf computer back ups is bij- 
voorbeeld in circa 200 data clusters opgedeeld en niet in 5000 directory-items.” 


3.2.4 Classificatie van de data 


Zowel in de inventarisatiefase als bij de selectie was het gebruik van een classifi- 
catie belangrijk. Onderbrengen van de gegevens in verschillende categorieén was 
nodig voor een snelle selectie. Daarbij is een eerder voorstel tot indeling, afkom- 
stig uit het rapport Digitaal Academisch Erfgoed **, uitgebreid en aangepast. Het 
classificatiesysteem dat zo ontstond is weliswaar toegesneden op dit project, maar 
kan goed dienst doen in vergelijkbare projecten. 

Bij de classificatie in ‘datagroepen’ (zie tabel 4.3) is uitgegaan van een hoofd- 
indeling in programmatuur (P), gecreëerde data (D) en centrale of systeem back- 
ups (SB). 

Omdat het project primair gericht was op de onderzoeksdata, is hiervoor een 
systeem op maat gemaakt: de categorie D. Deze allerminst homogene groep is ver- 
volgens verder onderscheiden in een aantal functionele klassen, ondermeer vanuit 
beheersoogpunt: in de eerste plaats de ‘echte’ onderzoeksdata, daarnaast een ver- 
zamelcategorie met van de eerste groep afgeleide producten en teksten. In een later 
stadium is een aparte klasse bron- of archiefdata onderscheiden: digitale informa- 
tie die voor toekomstig onderzoek benut kan worden. Hierbinnen viel tenslotte 
onderscheid te maken naar herkomst: interne en extern gecreëerde data. 

De categorie IN bevat als enige zowel data als software. Voor ons doel was het 
niet nodig om de informatie omtrent beheer van het instituut nog verder uit te 
splitsen. Buiten het DX-materiaal zijn er op clusterniveau geen andere extern ver- 
vaardigde data gevonden; een enkele keer wel tekst maar dat leidde niet tot een 
afzonderlijk datacluster. 

Ondanks alle aandacht voor (onderzoeks)data is de classificatie van de soft- 
ware zeker niet onderschat. Veel van de digitale erfenis had betrekking op de wer- 
king van randapparatuur of systeem- of ontwikkelsoftware. De inventarisatie zou 
hier kunnen volstaan met een beschrijving op het niveau van de cluster. Toch gold 
dit niet automatisch alle aangeleverde programmatuur. Voor het behouden van 
onderzoeksdata moet een maatwerkprogramma nu eenmaal anders behandeld 
worden dan systeemsoftware. Het bewaren van bijvoorbeeld een dBase-tabel zon- 
der de bijbehorende maatwerkapplicatie (prg), kan gegevensverlies betekenen. Ze- 
ker als dit programma data verwerkt uit meerdere gekoppelde tabellen, zou ook 


27 De nieuwe dataclusters kenden grote verschillen in omvang en in aantal onderdelen. Zo 
kon in een enkel cluster de halve directorystructuur van een harde schijf back up zijn opge- 
nomen, omdat alle informatie in deze vertakking bij het Meertens Instituut als gelijkwaardig 
werd beschouwd (de ontwikkelomgeving bijvoorbeeld, of systeem-back ups). De kleinste een- 
heid daarentegen werd gerepresenteerd door een cluster bestaande uit slechts één file. 

28 Mostert e.a. (1998) 11-13. 
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Tabel 3.3 Classificatie van soorten data 


Aanduiding 


Omschrijving 


PM 


PX 


PS 


PU 


P: Programmatuur (software) 


Maatwerkprogrammatuur: ‘lokaal’ door instituutsmedewerkers gecreëerd, of in 
opdracht geschreven. De relatie met data uit de groep DO is groot. 


Applicaties of kantoorsoftware. Commercieel geproduceerd en meestal op rui- 
me schaal gedistribueerd. Van belang als de software-applicaties van oudere 
data zijn en indien incourant, met het oog op de conversie. 


Systeemsoftware. Commercieel en op grote schaal gedistribueerd, ten behoeve 
van de besturing van computersystemen (servers en PC's). Geen of beperkte re- 
latie met onze aandachtsgroepen onderzoeksdata e.d. 


Verzamelgroep van utiliteitsprogrammatuur. Niet in alle gevallen zal de schei- 
ding met PS duidelijk zijn. Geen relatie met onderzoeksdata e.d 


DO 


DA 


DX 


DT 


DM/IN 


DP 


D: Digitale data, gecreéerd bij het Meertens Instituut (of elders) 


Onderzoeksbestanden: de wetenschappelijke ‘output’. In het algemeen zijn 
het gestructureerde alfanumerieke gegevens, de ruwe uitkomst van het onder- 
zoek. Vorm: databank, tabel, rekenblad. 


Archiefmateriaal: digitale informatie die de bron kan vormen voor onderzoe- 
kers. Heterogeen qua vorming, maar altijd betrokkenheid met het Meertens 
Instituut. In deze groep ging het om veel zelf of in opdracht gedigitaliseerde 
bronteksten (images en OCR-versies). Daarnaast documenten in het kader van 
het project van ingestuurde brieven. Ook transcripties van interviews. 


Extern vervaardigde, commercieel gedistribueerde data, vooral wetenschap- 
pelijk apparaat: bibliografieén, woordenboeken, soms ook wetenschappelijke 
bronteksten: bijv. ‘Cetedoc’ (Brepols). 


Teksten van wetenschappelijk medewerkers (ten behoeve van een proefschrift 
of andere publicatie). Ook uit databases afgeleide informatie (uitsnedes, export 
subsets). 


Gegevens in relatie tot het (dagelijks) beheer van het instituut. Geen homoge- 
ne groep; zal niet alleen data (teksten) bevatten maar ook lokaal en/of extern 
vervaardigde maat-applicaties (PX, PM). 


Persoonlijke mappen van medewerkers. 


SB 


SB: Systeem back-ups 


Directories met back ups van grote eenheden. Deze categorie bevat per defi- 
nitie dus sterk heterogene groepen data, in het algemeen bestaande uit oude 
kopieën. 


deze toepassing bewaard moeten blijven. Daarom is ook de programmatuur on- 
derverdeeld. Bij het klasseren van een data cluster was het van belang om te weten 
met wat voor programmatuur (welke P-code) deze tot stand waren gekomen. 

Van dein totaal ongeveer veertig diskettes met schijf- en of leesproblemen zijn er 
twintig in de databank opgenomen. Het zijn in alle gevallen 312” diskettes. De tech- 
nische oorzaken van het meer en meer onleesbaar worden van data, de erosie noch 
de data recovery zijn bij dit project een substantieel aandachtspunt geweest, vooral 
vanwege het relatief weinig voorkomen daarvan. 
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Tabel 3.4 Totalen naar soort data 


Soorten data: 


hoofdgroepen Clusters Bestanden * Kb % Kb 
Onleesbaar 20 1925 0,02 
Data 981 5881 942000 11,3 
Programma's 405 10355 7168227 86,0 
Systeem Backups 53 2250 219879 2,6 
Totaal 1459 18480 8.332.031 100,0 


* De aantallen in deze kolom geven de onvolledige gegevens uit de databank weer. De onvol- 
ledigheid is het gevolg van het feit dat de inventarisatie is gebaseerd op slechts 524 van de 1460 
clusters, zie het vermelde bij tabel 3.2. Zie bijlage B voor een gespecificeerde versie van deze 
tabel. 


3.3 Selectie 


3.3.1 Criteria 


De feitelijke selectie werd in twee fasen uitgevoerd. Eén voor het beoordelen per 
cluster, waarbij de eerder toegekende classificatie een nuttige rol speelde, en één op 
het bestandsniveau. De in deze tweede fase geselecteerde bestanden zijn uiteinde- 
lijk vrijwel allemaal gearchiveerd. 

In het hele project ging het om het veiligstellen van bestanden met onderzoeks- 
data. Daarvoor zijn criteria nodig, die alleen maar door vakgenoten vastgesteld 
kunnen worden. Het Meertens Instituut heeft in dit project zelf de bewaarcriteria 
bepaald. Uit de eerste fase van de inventarisatie bleek de werkelijkheid al ingewik- 
kelder te zijn dan het simpele onderscheid tussen wel of geen onderzoeksdata. 

Het onderzoeksplan voor 2000-2005 van het Meertens Instituut” leverde ‘ur- 
gentie en belang voor het wetenschappelijk onderzoek’ als belangrijk criterium op. 
Het ‘Gouden eieren’ rapport van hetzelfde instituut” noemt als voornaamste cri- 
terium het belang voor het lopende onderzoek binnen het Meertens Instituut en 
op de tweede het belang voor (samenwerking met) andere instellingen als KNAW- 
instituten of universiteiten. Daarnaast zijn er nog het innovatieve belang , het be- 
lang van conservering en tenslotte het maatschappelijk belang: behoud van en toe- 
gang tot cultureel erfgoed. Ook vanuit het NHDA zijn enkele criteria ingebracht 
zoals het belang voor onderzoek naar de langetermijnbewaring van digitale data. 


3.3.2 Selectie fase 1: data clusters 


Zoals eerder gezegd kon een deel van de eerste selectiefase automatisch uitgevoerd 
worden. Daarbij was selectie afhankelijk van de eerder toegekende classificatie. Zo 
vielen ondermeer clusters met de etiketten PS en PU af omdat deze hoogstwaar- 


29 Het oog op de toekomst, Onderzoeksplan 2000-2005 (1999), hoofdstuk 6.2(.2). 
30 Gouden eieren (1997). 
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schijnlijk geen onderzoeksbestanden bevatten. Ook clusters met kantoorapplica- 
ties, instituutsgerelateerde toepassingen en data en persoonlijke mappen van me- 
dewerkers werden uitgefilterd. Hetzelfde gold voor de SB-clusters, die kopieén van 
elders opgeslagen gegevens bevatten. 

In de praktijk zijn niet alle clusters met onderzoeksdata (D) automatisch gese- 
lecteerd. Dat gebeurde bijvoorbeeld niet wanneer de informatie verouderd bleek 
of elders voorhanden. 

De overwegingen voor de selectie zijn gedocumenteerd. Van het totaal van 
1460 dataclusters werden er uiteindelijk 323 geselecteerd; deze bevatten circa 3000 
bestanden. 


3.3.3 Selectie fase 2: bestanden 


Van de geselecteerde clusters werden vervolgens alle bestanden geinventariseerd. 
Dat leverde een overzicht op met informatie over alle betrokken bestanden, onge- 
acht hun locatie of medium. Deze tweede fase van de selectie was dus gericht op 
deze bestanden. Dat selectieproces bestond uit drie niet altijd duidelijk te scheiden 
onderdelen of invalshoeken: 

- technische uitfiltering op dubbele bestanden en oudere versies, waarna circa 

2000 bestanden overbleven; 

— inhoudelijke selectie door het Meertens Instituut, met als resultaat dat er in 
februari 2003 circa 700 bestanden geselecteerd waren voor bewaring; 
— pragmatische selectie. 

Deze laatste invalshoek hield in dat op grond van verschillende overwegingen’! 
de samenstelling van de overblijvende verzameling nog aangepast kon worden. 
Enerzijds kon dat tot verdere selectie leiden, maar anderzijds ook tot deselectie. 
Per saldo is het aantal bestanden daardoor weer toegenomen. 

Aanleidingen om bestanden alsnog uit te sluiten waren bijvoorbeeld: 

— ze bleken alleen een lege structuur van een databank te bevatten; 

— ze bevatten identieke informatie, opgeslagen in verschillende opmaak en met 
een andere bestandsnaam; 

— het ging om font-bestanden; 

— ontbrekende kennis van zaken”? 

Na deze bewerking, waarvan ook het ‘uitpakken’ van enige zipfiles onderdeel 
was, zijn ongeveer 1300 bestanden geselecteerd voor archivering. Hiertoe dienden 
alle bestanden in non-ASCII-formaat eerst te worden geconverteerd. Deze con- 
versie komt in de volgende paragraaf (3.4) aan de orde. 


31 Afgezien van de eerder genoemde overweging van expertiseopbouw. 

32 Het is in de loop van het project helaas niet mogelijk gebleken om data, gecreëerd met Hy- 
perCard en verweven met de programma-’stacks, hieruit los te weken. Vanuit het oogpunt van 
lange termijn bewaring is één van de denkbare oplossingen het converteren van de toepassing 
naar het programma MetaCard (met dank aan dr. E.H. Dooijes, Computer Museum UvA). 
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3.4 Archivering 


3.4.1 Het werkproces in hoofdlijnen 


De data-archivering was de derde en laatste fase van het werkproces. Deze fase zou 
moeten leiden tot een ‘geoperationaliseerde infrastructuur’ en ‘gearchiveerde’ da- 
tabestanden: opgeslagen, gedocumenteerd en geschikt gemaakt voor raadpleging 
met behulp van de daartoe aangebrachte metadata. 

De geselecteerde databestanden zijn met het oog op de langetermijnbewaring 
geconverteerd, met als standaard software-onafhankelijke ASCII-opslag®, en ge- 
documenteerd met behulp van de database BIOM (Beheer en Informatie Oude 
Meertens-data). Deze bestaat uit twee gekoppelde hoofdtabellen: één op cluster- 
niveau met contextinformatie over de gegevensdrager (het medium), en één op 
bestandsniveau met technische en contextuele metadata. 

In het vervolg van deze paragraaf wordt nader ingegaan op de twee belangrijk- 
ste activiteiten van deze projectfase, de conversie en de documentatie. 


3.4.2 Conversie: technische specificaties 


Bij de aanvang van de conversie bedroeg het aantal geselecteerde bestanden om en 
nabij de 1300. Omdat voor een aantal geëxtraheerde tekstbestanden geen conver- 
sie nodig was, bleven 900 te bewerken items over. 

De aard van de software, de programmatuur en het gebruikte platform, waar- 
mee de bestanden zijn gecreëerd is van groot belang voor de organisatie van de 
conversie. Bij het beantwoorden van de vraag naar de gebruikte applicatiesoftware, 
was het platform de bepalende factor. 

De data waren grotendeels afkomstig uit een Apple-Mac omgeving. Voor deze 
Mac-bestanden zijn daarbij in technisch opzicht twee begrippen van belang: de 
‘type- en ‘creator’-codes die de gebruikersinterface van het Mac besturingssy- 
steem, de ‘Finder’, gebruikt om bestanden aan de juiste applicatie te koppelen. Sa- 
men worden deze onzichtbare codes ook wel de file signature genoemd.” Dankzij 
het feit dat deze signatures bij de inventarisatie zijn verzameld en als metadata in 
bestandentabel zijn opgenomen, hadden we in principe van tevoren inzicht in de 
aard van de Mac-bestanden. 


33 Zie ook bijlage D (Tekst encoding). 

34 Een bondige samenvatting hiervan (1): “The Macintosh doesn't use the three-byte (or even 
more than three, like under Unix) extension concept to identify files, but signatures. Signatures 
are strings of eight bytes, four for the creator (the program which created the file) and four for 
the file type (text, picture, and so on). The correspondance between signatures and icons is 
managed by the Finder, for all programs which happened to exist on a volume, in the Desktop 
file (an hidden system file which is never shown by the Macintosh but exists on every disk)? (1) 
eneen Voor meer informatie wordt verwezen naar de 


betreffende toolbox pagina op de apple.com site, ‘Giving a Signature to Your Application and a 


Creator and a File Type to Your Documents, 
< fhttp://developer.apple.com/documentation/mac/Toolbox/Toolbox-447.htm] > 
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Tabel 3.5 Aantallen bestanden en spreiding naar platform en brontoepassing 


Platform >> Toepassing MS-DOS / Windows Mac Opmerking (*) 
Wordperfect 200 * 6 meestal (95%) versie 5.1 
FileMaker 0 143 - 

WriteNow 0 169 - 

Tekstbestanden 295 22 - 

Word-documenten 19 4* Word 1.0 (WDBN WORD) 
ClarisWorks 2.0 0 25* type CWDB, creator BOBO 
Lotus 1-2-3 4* 0  WK1 Lotus, release 2 
Beeld-bestanden 10 * 0 jpg (9) en bmp 

Ms Outlook- email E 0 Outlook Express mail message (eml) 
Totaal 531 369 - 


Op een PC ontbreken deze file-attributen. Bij de groep PC-bestanden waren 
we dan ook aangewezen op de extensies. De vrijheid van naamgeving, zoals toege- 
staan door de verschillende softwareprogrammas, zorgde er echter voor dat de in- 
formatieve waarde hiervan beperkt was. Ruim 160 bestanden waren voorzien van 
een extensie-achtige toevoeging aan de naam, maar slechts bij 71 was de extensie 
te koppelen aan bekende software. Ook bij deze extensies, die schijnbaar aan een 
toepassing zijn gebonden, is echter niet alles wat het lijkt. Doc- en txt-bestanden 
bleken bijvoorbeeld met WordPerfect 5 te zijn gemaakt. Voor deze gevallen, voor 
de MS-DOS/Windows-bestanden zonder extensie en voor de bestandsnamen met 
een vrij toevoegsel van de auteur moest de applicatiesoftware proefondervindelijk 
worden vastgesteld. Dit leverde echter nauwelijks problemen op. Veelal was er snel 
een patroon te bespeuren en bleken clusters bestanden van dezelfde bron te bevat- 
ten. 

Met al deze voorbehouden kon uiteindelijk een overzicht worden gegeven van 
de diversiteit in software van de originele data (Tabel 3.5). 


3.4.3 Conversie: uitvoering 


Alfanumerieke bestanden vormden dus, geheel volgens de verwachtingen, het 
leeuwendeel van de geselecteerde verzameling. Juist voor de archivering van deze 
groep bestanden was binnen het ADA-project in een oplossing voorzien. Dit gold 
veel minder voor de andere bestandsformaten. Voor de weinige beeldbestanden is 
ad hoc een oplossing gevonden. 


Alfanumerieke bestanden 

Zoals eerder uiteengezet vormde de strategie van migratie en conversie naar nieu- 
we systemen”, bij voorkeur standaardformaten, in dit project het uitgangspunt 
voor het veiligstellen van de bestanden: het exporteren van bestanden in de origi- 
nele software naar andere (nieuwere) software. 


35 De terminologie wisselt soms in betekenis. Zie ook : Dollar (1999) en Bearman (1999). 
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In de praktijk hield dat de verwijdering in van alle door de software gegene- 
reerde stuurcodes door middel van het opslaan van de informatie in standaard 
ASCII-formaat. De bestanden werden zo mogelijk in de eigen applicatie geopend 
en vervolgens opgeslagen of geéxporteerd als een tekstbestand. In een aantal geval- 
len kon een reeks (WordPerfect 5) bestanden worden omgezet als batch-opdracht 
met een conversieprogramma.°“ 


Beeldbestanden 

Buiten de groep alfanumerieke bestanden beschikten we over een zeer gering aan- 
tal beeldbestanden (9 jpg’s en 1 bmp). De jpg-files zijn gedecomprimeerd en op- 
geslagen in uncompressed TIFF-format. Dit in overeenstemming met de huidige 
richtlijnen waarbij de jpeg-compressie als kwetsbaar wordt aangemerkt. Het bit- 
map-bestand is niet geconverteerd. 

Ten behoeve van de feitelijke conversie heeft het NHDA een bescheiden com- 
puterlab ingericht. Het Meertens Instituut stelde een oudere, onder systeem 7 
draaiende, Macintosh Performa 630 ter beschikking. Hierop draaiden de meeste 
aangetroffen Mac-toepassingen. Daarnaast hadden we voor de MS-DOS-bestan- 
den de beschikking over een AT (een Hewlett Packard Vectra VL2) waarop naast 
Wordperfect 5.1 ook specifieke conversie-software was geinstalleerd. 

Tijdens deze fase van het project deden zich wat problemen voor door de rela- 
tief vrije naamgeving van de Mac-bestanden ten opzichte van het Windows-plat- 
form. Mogelijke problemen bij de geconverteerde doelbestanden zijn geneutrali- 
seerd door het dichten van spaties en het vervangen van kritische tekens. 

Hieronder een voorbeeld van een dergelijke ingreep: de oorspronkelijke Mac- 
bestandsnaam, links, en de gefatsoeneerde vorm van het conversiebestand rechts: 


1. register (1959-1975) 1_register_1959 1975 


3.4.4 Verdwijnende functionele opmaak 


De gehanteerde conversie heeft nu en dan ongewenste gevolgen. Het beoogde re- 
sultaat, het verdwijnen van vrijwel alle stuurcodes, trof ook die bestanden waar- 
bij markeringen van tekstblokken essentieel zijn voor de documentstructuur. Het 
ging hier om de uitgeschreven interviews met de vragen en opmerkingen van de 
ene partij gecursiveerd; de reacties van de geinterviewde zijn zonder markering. In 
de geconverteerde versie is de leesbaarheid hierdoor duidelijk verminderd. 

Voor deze groep bestanden - alleen tekstdocumenten - is de conclusie dat de 
hier uitgevoerde wijze van conversie niet kan plaatsvinden zonder de functionali- 
teit geweld aan te doen. De oplossing kan vermoedelijk alleen worden bereikt via 
een extra selectie- en bewerkingsslag, bijvoorbeeld een zoek & vervang-ingreep in 
de relevante teksten. Stuurcodes worden dan vervangen door eenvoudige marke- 
ringen, al dan niet gebaseerd op HTML (<i> en </i>, et cetera). 


36 Software Bridge v.5. 
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3.4.5 Documentatie van de gegevens 


Zonder documentatie is het niet mogelijk de data toegankelijk te maken. In het be- 
ginstadium van het project was er, in het kader van de inventarisatie, geen schei- 
ding tussen de invoer van basisgegevens en aanvullende verrijking. Voor de data 
afkomstig van de harde schijf-back ups heeft dit laatste pas na de selectie plaats ge- 
vonden. 

Speciaal voor dit documentatieproces is de eerder genoemde BIOM-database 
gemaakt (paragraaf 3.4.1) in de vorm van een Access-databank, bestaande uit twee 
gekoppelde tabellen waarin de metadata met betrekking tot respectievelijk de clus- 
ters en de bestanden zijn opgenomen. Details over de BIOM-catalogus geeft bijlage 
E 

Het Meertens Instituut zal zelf verdere verrijking van inhoudelijke aard uitvoe- 
ren, met deze catalogus als uitgangspunt. Het gaat om de in de bestanden of be- 
standsnamen besloten informatie over plaats en periode die via een geografisch 
zoekveld, op meerdere niveaus getrapt, en een periode-ingang toegankelijk worden 
gemaakt. 

Naast de documentaire rol, die een onderdeel vormt van de archivering, kreeg 
de databank in de loop van het project een steeds belangrijker beheersfunctie. Zo 
vormde de in de clustertabel opgeslagen informatie in eerste instantie de basis voor 
de selectie. Ook het uitfilteren van identieke bestanden en verdubbelingen met ver- 
schillende datum kon hiermee eenvoudig worden gerealiseerd. Verder was BIOM 
een bron voor het maken van de kencijfers, die deels in dit verslag zijn opgeno- 
men. 


3.5 Conclusies 
Naast concrete resultaten (900 gearchiveerde databestanden” en een databank met 
metadata) heeft dit project ook veel ervaring opgeleverd met de toegepaste werk- 
wijze. Op een aantal punten bleek de werkelijkheid anders uit te pakken dan van 
te voren was gedacht. Dit noopte tot aanpassingen in de oorspronkelijke projecto- 
pzet. Het grote aantal bestanden was zo'n punt. De beheersing van de omvang van 
het project werd al vrij snel belangrijk en leidde als vanzelf tot een meer iteratieve 
aanpak. Ook de beschrijving van de data werd op een beperktere schaal aangepakt 
dan oorspronkelijk voorzien. De rol van de opdrachtgever was daarnaast bij vele 
beslispunten doorslaggevend. Dat speelde niet alleen bij inhoudelijke beslissingen, 
maar ook bij de ontsluiting en ter beschikkingstelling van de data. Een belangrijke 
constatering is verder dat dit project een vrijwel uitsluitend retrospectief karakter 
heeft gekregen. Dat was niet de bedoeling, maar het reconstrueren van de oudere 
bestanden bleek al ruim voldoende voor één project. 

Een aantal van de belangrijkste bevindingen uit de praktijk van het project 
volgt hieronder puntsgewijs. 


37 Plus ruim 350 geëxtraheerde tekstbestanden, waar verder niets aan hoefde te gebeuren. 
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1. De hoeveelheid data De inventarisatie en de selectie kregen door de grote hoe- 
veelheid data een sterk iteratief karakter. Er werd eerst op het niveau van de da- 
taclusters geselecteerd en daarna op dat van de databestanden. Zo kon 96% van 
de data al in de eerste fase worden uitgeselecteerd. Het aandeel van de uitein- 
delijk geselecteerde data bedraagt ongeveer 1%. Het zal duidelijk zijn dat een se- 
lectie op basis van goed ingedeelde clusters in de eerste fase veel onnodig werk 
later in het project kan voorkomen. De constatering dat inventarisatie en selectie 
sterk iteratief verliepen, heeft geleid tot een aanpassing van de ADA-aanpak (zie 
hoofdstuk 6). De juiste volgorde van een ADA-project moet zijn: eerst selectie op 
projectniveau, vervolgens op clusterniveau en vervolgens op bestandsniveau. On- 
nodig heen-en-weer springen tussen deze niveaus moet zoveel mogelijk voorko- 
men worden, al zal dat in de praktijk nooit helemaal lukken. 


2. Inzicht in de data-infrastructuur en data-collecties De aangetroffen data waren 
naar vorm, medium en platform, en tot op zekere hoogte op afdelingsniveau ver- 
schillend. Bij het Meertens Instituut zelf kon het inzicht in wat er eigenlijk werd 
aangetroffen variéren. Dat kwam onder meer door de voorafgaande veranderin- 
gen in het platform, het operating system en de software, maar ook door omstan- 
digheden als de aanschaf van computers zonder diskettestation of de beéindigde 
relatie met externe dienstverleners. 


3. De technische staat van de data De technische staat van de data was over het al- 
gemeen goed. Het digitale materiaal was leesbaar was of kon zonder grote proble- 
men leesbaar worden gemaakt. Een verwaarloosbaar percentage van de diskettes 
bevatte technische fouten. Er bleken op dit punt geen ernstige problemen, bijvoor- 
beeld als gevolg van verkeerde opslag of calamiteiten. 


4. De benodigde inzet van de opdrachtgever Het contact met de opdrachtgever is 
onontbeerlijk geweest. Dat gold voor de selectie, het samenvoegen van mappen tot 
clusters, het inhoudelijk verrijken van deze data clusters onder andere met instit- 
uutsinformatie. 

Het contact verliep bovendien bijzonder goed. Het project heeft veel profijt ge- 
had van de nog steeds bij het instituut bestaande kennis over de organisatie en haar 
eigen verleden. Betwijfeld moet echter worden of de hier bestaande continuiteit 
nog als regel kan worden beschouwd in wetenschappelijk Nederland. Gelet op de 
veranderingen bij de universiteiten (schaalvergroting, samenvoeging en opheffing 
van onderzoekseenheden) in de afgelopen decennia, wordt de kans steeds klei- 
ner dat de verantwoordelijke afdeling documentaire informatievoorziening nog in 
staat zal zijn inhoudelijke hulp te bieden bij de verrijking. Op grond van de in dit 
geval positieve ervaringen is de conclusie dat een zekere inzet van de opdrachtge- 
ver minimaal vereist is. Het gaat daarbij om inhoudelijke beoordeling van de da- 
tabestanden en kennis van de huidige en de historische data-infrastructuur. 
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5. Wensen van de opdrachtgever De betrokkenheid van de opdrachtgever kan in in- 
tensiteit variéren, afhankelijk van wat deze partij uiteindelijk wil. In het kader van 
dit project had het Meertens Instituut tevoren geen specifieke wensen geuit. Het 
wilde primair inzicht hebben in de data, maar was daarbij niet direct in staat om 
selectiecriteria op te geven. Daarnaast is ook de fase van de ontsluiting der data, in 
het bijzonder mogelijke publicatie daarvan op Internet, in het kader van dit project 
verder niet uitgewerkt. Dit alles heeft er toe geleid dat de nieuw ontwikkelde ADA- 
aanpak een sterk modulair karakter kent. 


6. Planning De eerdere projectfasen vergden veel meer tijd dan oorspronkelijk 
voorzien, de latere fase van de conversie vroeg juist veel minder tijd. Er was met 
name een behoorlijke discrepantie tussen plan en uitvoering bij de verwerking 
van de ruim 8 Gb aan data. Getracht is ook de kosten hiervan te becijferen. 

Vanuit het oogpunt van planning moet ook rekening gehouden worden met 
de communicatie tussen opdrachtgever en uitvoerder, waarvan de intensiteit van- 
zelfsprekend grotendeels wordt bepaald door de overeengekomen mate van parti- 
cipatie van de opdrachtgever. In dit project is een deel van de tijd ‘opgegaan’ aan 
interne communicatie bij de opdrachtgevende instelling; het navragen van infor- 
matie bij betrokkenen ten behoeve van de documentatie. Daarnaast bleek de com- 
municatie tussen uitvoerder en een externe dienstverlener (Computer Museum) 
van groot belang. Ook daarbij bleek een goed contact en ook controle nodig te 
zijn. 


7. Technische punten Op enkele technische punten wordt in bijlage D ingegaan. 
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Het marktonderzoek 


4.1 Inleiding 

Het marktonderzoek, om te kunnen vaststellen of de wetenschappelijke wereld ge- 
interesseerd is in digitale archiveringsdiensten, heeft zich geconcentreerd op insti- 
tuten in de humaniora en sociale wetenschappen. Dat is het werkterrein van het 
NHDA*® en zijn erfopvolger DANS. Hoewel daar niet expliciet naar is gezocht, is 
toch enige informatie over andere disciplines aan het licht gekomen. Daardoor is 
het mogelijk algemene conclusies te trekken over de situatie rond de Nederlandse 
onderzoeksdata. 


4.2 Opzet 
Gekozen is voor een aanpak op basis van diepte-interviews met vertegenwoordi- 
gers van een aantal instituten, gespreid naar soort onderzoek en discipline. On- 
derzoeksinstellingen hebben vaak zelf gegevensbestanden aangelegd, terwijl andere 
instellingen in de eerste plaats documentatiecentra zijn, die vaak grote collecties 
gegevens (documenten, teksten) beheren en uitgeven en daarnaast ook nog on- 
derzoek verrichten. Beide categorieën produceren data en stellen deze meestal via 
een website of anderszins ter beschikking. Er is gesproken met zowel universitei- 
ten als instituten. 

Gesprekken zijn gevoerd met vertegenwoordigers van: 
— het Sociaal Historisch Centrum Limburg in Maastricht, 
- de Rijksdienst voor Kunsthistorische Documentatie (RKD) in Den Haag, 
— het Instituut voor Nederlandse Geschiedenis (ING) in Den Haag, 
— het Instituut voor Nederlandse Lexicologie (INL) in Leiden, 
— het KITLV (Koninklijk Instituut voor Taal-, Land en Volkenkunde) in Leiden, 
— het NIDI (Nederlands Interdisciplinair Demografisch Instituut) in Den Haag, 
— de Fryske Akademy in Leeuwarden, 
de Theologische Universiteit in Kampen, 


38 Dit is in afwijking van de oorspronkelijke opzet, waarbij een marktonderzoek in alle 
disciplines was voorzien. De ten opzichte van de beginfase van het ADA-project veranderde 
strategische omgeving van het NIWI heeft tot deze verandering genoopt. Ook DANS richt zich 
op dit moment uitsluitend op de alfa- en gammawetenschappen. 
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- WODC (Wetenschappelijk Onderzoeks- en Documentatiecentrum van het 

Ministerie van Justitie), 

- de Universiteit van Amsterdam (archiveringsproject). 

Ook met het CBS (Centraal Bureau voor de Statistiek) is contact geweest. 

In de meeste gevallen werd gesproken met de verantwoordelijke voor het auto- 
matiseringsbeleid. Dat leverde inzicht op in de manier waarop digitale bestanden 
gecreéerd en gebruikt worden voor wetenschappelijk onderzoek, en in de geschie- 
denis van de automatisering van het instituut de afgelopen jaren. 

De gesprekspartners werden van tevoren geinformeerd over de opzet van het 
ADA-project en in het bijzonder over de mogelijkheden van digitale archiverings- 
diensten. In het gesprek kwam een aantal vragen aan de orde. De eerste groep vra- 
gen was er op gericht te kunnen vaststellen of een instelling zelf inzicht heeft in de 
door haar of onder haar dak vervaardigde bestanden. Daaraan gekoppeld was de 
vraag of men zelfin de praktijk al tegen problemen met de leesbaarheid en bruik- 
baarheid van oudere bestanden was opgelopen. 

De tweede groep van vragen was erop gericht, te weten te komen in hoeverre 
de instelling zich bewust was van de digitale duurzaamheidsproblematiek, daar 
zelf enig beleid voor heeft ontwikkeld dan wel van plan was te gaan ontwikkelen. 
De derde groep van vragen ging in op de digitale archiveringsdiensten en de in het 
ADA-project voorgestelde werkwijze. 


4.3 Vragen over de inventarisatie van de bestanden 

Het antwoord op de vragen naar het eigen inzicht in de aanwezige digitale be- 
standen was zeer divers. Sommige hadden, volgens eigen zeggen, hun bestanden 
goed op orde. Dit deed zich vooral bij die instituten voor waar men als belangrijk- 
ste doelstelling het uitgeven van digitale teksten of databestanden heeft (INL, ING). 
Wel wordt een duidelijk onderscheid gemaakt tussen eindbestanden en werkbe- 
standen. De stellige indruk bij deze instituten is dat men zich de waarde van deze 
bestanden ten zeerste bewust is en zeker voor de technische back-up goede veilig- 
heidsmaatregelen heeft genomen. Dat geldt zowel voor de eigenlijke data (of tekst-) 
bestanden als de daarbij behorende metadata. Daarnaast is vaak uitdrukkelijk voor 
zeer gangbare systemen gekozen (software en hardware). 

Bij andere instituten was een minder duidelijk of gemengd beeld: in sommige 
afdelingen en bij sommige projecten wel, bij andere had men geen overzicht. Daar 
kwam een factor bij: niet in alle gevallen lijkt het gemakkelijk een onderscheid te 
maken tussen bestanden van het instituut en van individuele medewerkers, ver- 
bonden aan het instituut. Bedrijfsculturen kunnen op dit punt enorm uiteenlo- 
pen. 


4.4 Besef van de duurzaamheidsproblematiek 


Ook bij de vragen naar het besef van de problematiek van duurzaamheid was het 
beeld gevarieerd. In de hiervoor genoemde groep instituten die hun bestanden be- 
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ter op orde hadden kon wel besef van de bewaarproblematiek aangetroffen wor- 
den, gecombineerd met ongerustheid over de fysieke duurzaamheid van gegevens- 
dragers (CD-ROMS, optische disks), de afhankelijkheid van proprietary software. 
Een paar keer werd het ontbreken van enig centraal beleid op dit punt genoemd. 

Voor kleinere instituten blijkt de situatie anders dan voor grote organisaties, 
zoals universiteiten en bijvoorbeeld het Centraal Bureau van Statistiek. Bij kleine- 
re instituten hebben systeembeheerders of vergelijkbare functionarissen nog enig 
overzicht. Zelfs daar wordt echter niet alles overzien, zeker niet de bestanden van 
de individuele medewerkers. 

Er is zeker enig streven naar duurzaamheid, doordat men bijvoorbeeld back- 
ward compatibility toepast en een goed back-up systeem verzorgt. Ook zeiden 
sommige gesprekspartners de ontwikkelingen op dit terrein te volgen, speciaal wat 
er in Nederland gebeurt en met name bij het e-depot van de KB of het Program- 
mabureau Digitale Duurzaamheid van de Rijksoverheid. 

Bij een aantal instituten, vooral in de alfa-sfeer, is begrijpelijkerwijze de aan- 
dacht bijna volledig gericht op digitalisering van teksten of beeld. Dientengevolge 
wordt de bewaarproblematiek sterk onderbelicht, om niet te zeggen onderschat. 


4.5 Houding tegenover de ADA-aanpak 

Het werd duidelijk dat bij de meeste instituten het besef aanwezig is dat men zelf 
niet aan beleid voor langetermijnbewaring of de uitvoering daarvan toekomt. In 
hoeverre is er nu behoefte aan ADA-dienstverlening? In ieder geval bestaat er on- 
gerustheid, en daarmee een vraag naar voorlichting, documentatie en richtlijnen 
op dit gebied. Daarnaast constateerden de meer betrokken respondenten twee 
problemen. Ten eerste kunnen landelijke initiatieven (nog) niet altijd gemakkelijk 
naar de praktijk van een instituut vertaald worden. In de tweede plaats wordt de 
uitkomst van het internationale debat over de beste archiveringsstrategie als onze- 
ker beschouwd. Definitieve keuzes op dit terrein worden daarom op dit moment 
uitgesteld, dan wel voor zich uit geschoven. De keuze tussen emulatie of conver- 
sie wordt als te moeilijk gezien: er zijn nog geen overtuigende voorbeelden uit de 
praktijk. 

De noodzaak van beleid op dit terrein werd over het algemeen wel ingezien. 
Desgevraagd konden vrij gemakkelijk allerlei dark digital archives genoemd wor- 
den: collecties van bestanden, waarvan soms zelfs betwijfeld werd of er nog wel 
iemand verantwoordelijk voor was. Ook hier is de schaalgrootte belangrijk: bij een 
universiteit zal zoiets zich eerder voordoen dan in een klein instituut. Daarnaast 
spelen reorganisaties een belangrijke rol. Daarbij verdwijnen nogal eens collecties 
geheel uit het zicht. Ook persoonlijke elementen als de aanwezigheid van systeem- 
beheerders of documentalisten kunnen een factor zijn. 

Een aantal respondenten zag inventarisatie en selectie als nuttige activiteiten, 
uiteraard vooral bij de instellingen die geen goed beeld hadden van hun bestanden 
én van het belang van inspanningen om deze te gaan bewaren. De vraag is echter 


HET MARKTONDERZOEK 


37 


38 


wel in hoeverre men dit een hoge prioriteit geeft. Zonder extra investeringen in 
tijd en geld zullen de bedoelde behoudswerkzaamheden waarschijnlijk niet van 
de grond komen. 


4.5 Conclusies 

Vast staat dat voor het onderwerp langetermijnbewaring grote belangstelling is 
en dat er behoefte is aan expertise op het terrein van de digitale archivering. Ge- 
concludeerd mag worden dat de bewustwording zeker is toegenomen.” Een dui- 
delijk beleid is er echter meestal nog niet, laat staan dat dit wordt uitgevoerd. Bij 
sommige instituten bestaat echter wel reeds een duidelijk beleid voor langetermijn- 
bewaring, al of niet gekoppeld aan beschikbaarstelling via een website. Of dat be- 
leid in alle opzichten adequaat is, is wel de vraag. Sommige gesprekspartners twij- 
felden hier zelf over. Bij een groot aantal instituten staat de wens van meer en 
snellere digitalisering en beschikbaarstelling van onderzoeksmateriaal voorop en 
daardoor worden de archiveringsproblemen onderbelicht en onderschat. 

Op de concrete vraag in hoeverre er in wetenschappelijk Nederland behoefte 
bestaat aan de ADA-dienstverlening is geen eenduidig antwoord te geven. Ener- 
zijds lijken de instellingen niet onmiddellijk uit zichzelf tot activiteiten over te 
gaan, of het nu archivering van oude bestanden betreft (zoals in dit ADA-project) 
of van het huidige materiaal. Anderzijds lijkt er wel degelijk een voedingsbodem 
aanwezig te zijn, zeker indien wanneer archivering gestimuleerd wordt door exter- 
ne factoren zoals beleid van de kant van de universiteiten, landelijke onderzoeks- 
organisaties (NWO, KNAW) of de Rijksarchiefinspectie. 

In ieder geval bestaat er een vraag naar voorlichting, documentatie en richtlij- 
nen. Zeker inventarisatie en mogelijk daarop volgende selectie van bestanden (de 
eerste fasen van de ADA-aanpak) wordt door een aantal instellingen als gewenst 
gezien, ook met de financiéle consequenties in beeld. 

De indruk uit de contacten met de universiteiten is dat daar wel degelijk be- 
hoefte is aan expertise op het terrein van het ADA-project. Enkele gesprekspartners 
uitten ook de behoefte aan een landelijke instelling waar onderzoeksbestanden 
kunnen worden bewaard.“ Op zijn minst lijkt een landelijke registratie van data- 
bestanden of althans de grotere collecties daarvan gewenst. Dat geldt echter ook 
ten aanzien van de categorie ‘rondzwervende’ bestanden van individuele mede- 
werkers. 


39 In vergelijking met enige jaren geleden, zie Mostert e.a. (1998). 

40 Naast de hierboven genoemde data-archieven voor de sociale wetenschappen en geschiede- 
nis lijken nu ook de neerlandici zich van de bewaarproblematiek bewust. Dat kan althans afge- 
leid worden uit de plannen zoals aangegeven in het in opdracht van de Nederlandse Taalunie 
uitgevoerde onderzoek Blauwdruk voor onderhoud, beheer en distributie van door de overheid 
gefinancierde digitale materialen (2002) 
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De haalbaarheid van digitale 
archiveringsdiensten 


5.1 Conclusies van het ADA-project 

In het ADA-project stond de vraag centraal naar de haalbaarheid van retrospec- 
tieve digitale archiveringsdiensten voor de wetenschappelijke wereld. Deze vraag 
wordt vanuit twee perspectieven beantwoord: vanuit het aanbod en vanuit de 
vraag. 

Van de kant van het NHDA en zijn erfopvolger DANS - de aanbodzijde - is 
het antwoord bevestigend: de ervaring met het pilot-project heeft het mogelijk ge- 
maakt dat deze vorm van dienstverlening aan wetenschappelijk Nederland aange- 
boden kan worden.“ Duidelijk is geworden dat dit een dienstverlening op maat zal 
moeten zijn die altijd projectmatig opgezet moet worden. De situaties, mogelijk- 
heden en wensen kunnen sterk uiteenlopen, wat ook voor een flexibele en modu- 
laire - kortom projectmatige - aanpak pleit. In de beschrijving van de ADA-aan- 
pak in hoofdstuk 6 worden de mogelijke vormen van deze dienstverlening verder 
uitgewerkt. De aanpak is voor alle wetenschappen geschikt en zou overigens ook 
buiten de wetenschappelijke sector aangewend kunnen worden. 

Aan de vraagzijde bestaat aan advisering, voorlichting, kortom expertise op het 
terrein van langetermijnbewaring, zeker behoefte. Dat geldt ook voor het inven- 
tariseren van databestanden. Verdergaande activiteiten als selectie, archivering en 
ontsluiting hebben veel instituten zelf nog niet duidelijk in beeld. Uiteraard speelt 
bij alle ADA-activiteiten het financiéle aspect een belangrijke rol, zeker wanneer 
het om grotere, arbeidsintensieve projecten gaat. Ook de grootte van de instelling 
is uiteraard een factor. De opdrachtgever kan echter door de modulaire aanpak 
en het inzetten van eigen menskracht een grote eigen inbreng hebben. Essentieel 
is dat het maatwerk blijft zodat de kosten van fase tot fase vastgesteld en beheerst 
kunnen worden. 


41 Na de afsluiting van dit ADA-project is dit ook al daadwerkelijk gebeurd in het project 
e-depot Nederlandse Archeologie <http://www.edna.leidenuniv.nl/P, waarin archeologische 


bestanden in repositories zijn opgeslagen. In dit project is de ADA-aanpak gevolgd. 
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Het marktonderzoek heeft ook de urgentie van het probleem bevestigd. Het ri- 
sico dat onderzoeksbestanden verdwijnen wordt snel groter door het verdwijnen 
van de kennis over de te archiveren data. Vooral het documenteren en selecteren 
van data, die hebben toebehoord aan inmiddels verdwenen vakgroepen of institu- 
ten kan veel problemen gaan opleveren. Het probleem lijkt eerder op het vlak van 
verdwijnende kennis te liggen dan op dat van de leesbaarheid van oudere media. 
In het proefproject bleek deze leesbaarheid nauwelijks een probleem, met uitzon- 
dering van een beperkt aantal diskettes met schijffouten. Bij digitale archivering 
tijdens of direct na de creatie van bestanden zal dit soort problemen zich veel min- 
der voordoen. Daarom is deze actieve vorm van archivering, ongebruikelijk in 
de papieren archiefwereld, zo noodzakelijk om langetermijnbewaring van digitale 
bestanden te bewerkstelligen. 

Nevendoel van het project was dat de ‘resultaten (...) een bijdrage kunnen le- 
veren aan de oplossing van de problematiek van het bewaren van digitale weten- 
schappelijke bestanden voor de lange termijn of, op zijn minst, aan mogelijk be- 
leid in Nederland op dit terrein. In het ADA-project is ervaring opgedaan met 
het samenspel van factoren, die een rol spelen bij het digitaal archiveren van data- 
bestanden. Deze zijn van technische, documentaire, maar vooral van organisatori- 
sche en beleidsmatige aard. Daarnaast is uit het marktonderzoek heel duidelijk de 
noodzaak gebleken van een (centrale) instelling in Nederland, die zich bezighoudt 
met advisering en mogelijk ook opslag van wetenschappelijke databestanden. 


5.2 Aanbevelingen voor de ADA-aanpak 

Op grond van de in het pilot-project (Meertens data’) opgedane ervaringen kon 

een aantal kritische aandachtspunten geformuleerd worden, die op hun beurt weer 

hebben bijgedragen aan de formulering van de ADA-aanpak voor toekomstige di- 

gitale archiveringsdiensten zoals in het volgende hoofdstuk weergegeven. Deze 

punten volgen hier in het kort: 

1. Noodzakelijk is een goede schatting vooraf van de grootte van het project, 
vooral gebaseerd op het aantal databestanden en de variëteit daarin, inzicht in 
de data-infrastructuur en de automatiseringsgeschiedenis van het opdrachtge- 
vende instituut. 

2. De communicatie met het opdrachtgevende instituut en eventuele andere in- 
stellingen waarvan assistentie vereist is moet gedurende het hele project een 
belangrijk aandachtspunt blijven.. 

3. Een selectie in fasen kan latere overbelasting van de infrastructuur voorko- 
men. 

4. Een modulaire aanpak is sterk aan te bevelen, vooral door de keuzemogelijkhe- 
den die worden geboden aan de opdrachtgevende instantie. 

5. Participatie van de opdrachtgever is bij elke module noodzakelijk, maar de in- 
tensiteit daarvan kan sterk verschillen. Duidelijke afspraken met de opdracht- 
gever hierover zijn essentieel. 
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. De medewerking van het opdrachtgevende instituut zelf is onontbeerlijk, spe- 
ciaal ten aanzien van de inhoudelijke kennis van de databestanden en de con- 
text waarin deze zijn ontstaan. Zonder de inschakeling van vakspecialisten is 
inhoudelijke selectie niet mogelijk. 


. Inventarisatie en selectie kunnen een sterk iteratief karakter hebben. De selec- 


tie dient daarom zoveel mogelijk in lagen (project - cluster - bestand) uitge- 
voerd te worden 

. De ADA-aanpak moet generiek zijn en niet domeingebonden, en kan in prin- 
cipe zowel binnen als buiten de wetenschappelijke wereld toegepast worden. 

. De ADA-aanpak moet primair gericht zijn op digitale bestanden en niet speci- 
aal op elektronische tijdschriften of boeken. 
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De ADA-aanpak voor digitale 
archiveringsdiensten 


6.1 Inleiding 

De ervaringen en conclusies van het ADA-project hebben de basis gevormd voor 
het formuleren van een meer algemene, toekomstgerichte aanpak voor digitale ar- 
chiveringsdiensten. Die zogenaamde ADA-aanpak is echter niet alleen gebaseerd 
op de ervaringen in het pilot-project, maar ook op en de standaardwerkwijzen van 
het NHDA en op de werkwijzen zoals die worden aanbevolen in diverse handboe- 
ken, artikelen over best practices en white papers voor digitale archivering.” Tevens 
wordt waar mogelijk aangesloten bij de aanpak in de traditionele archiefleer en 
worden standaard archieftermen gebruikt voor zover van toepassing.” 

De ADA-methodiek is gericht op retrospectieve archivering: het achteraf ar- 
chiveren van digitale informatie en is minder geschikt om lopende projecten te 
archiveren. Het verdient aanbeveling om naast de uitvoering van een ADA-project 
gericht op de historische dataproductie, ook maatregelen te nemen voor prospec- 
tieve archivering. 

De ADA-aanpak is in principe stapsgewijs en hiërarchisch van opzet, waarbij 
een top-down benadering wordt gevolgd. De methodiek is ook verwant aan de wa- 
tervalmodellen uit de systeemontwikkeling, zoals System Development Methodo- 
logy. Iedere te zetten stap in het proces is afhankelijk van informatie die in de vo- 
rige stap is verzameld en de keuzes die daarbij zijn gemaakt. Het is slechts beperkt 
mogelijk om terug te keren op eenmaal gemaakte keuzes. Het veranderen daarvan 
of het wijzigen van eerder gestelde prioriteiten zal consequenties hebben voor de 
tijd en kosten van het project. 

De ADA-aanpak houdt in dat de selectie, beschrijving en documentatie van het 
digitale archiefmateriaal in een aantal iteraties plaatsvindt, waarbij gewerkt wordt 
van het algemene, globale niveau naar het specifieke, meer gedetailleerde niveau. 
Bij de uitvoering van een ADA-project kan men besluiten om de archivering te be- 


42 Zie: Sheppard en Yeo (2003), Cox (2001), Jones en Beagrie (2001), Dollar (1992 en 1999) en 
Lazinger (2001). 
43 Zie: Den Teuling (2003). 
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perken tot enkele niveaus. Uiteraard zijn de diepere niveaus van selectie, beschrij- 
ving en documentatie tijdrovender en dus kostbaarder. De stapsgewijze aanpak 
biedt echter een handvat voor verantwoorde selectie. De opzet van het werkproces 
is juist hiërarchisch om de selectie zo efficiënt mogelijk te doen plaatsvinden en 
om te voorkomen dat overbodig werk wordt gedaan. De zeven onderscheiden fa- 
sen van de voorgestelde ADA-aanpak zijn: 


Fase 1: Omgevingsbeschrijving 

Fase 2: Materiaalafbakening 

Fase 3: Selectie en inventarisatie van projecten 

Fase 4: Mediumconversie en documentatie op het niveau van dataclusters 
Fase 5: Documentatie op bestandsniveau en conversie naar standaardformaat 
Fase 6: Documentatie op gegevensniveau 

Fase 7: Bewaring en toegankelijkheid 


De ADA-methode is gericht op de archivering van (wetenschappelijke) datapro- 
ductie. Daarbij gaat het primair om de informatie-inhoud, niet om het behoud van 
oorspronkelijke formaten of structuren. De context van de data, die in de data-ar- 
chiveringsliteratuur eveneens van groot belang wordt geacht, wordt zoveel mo- 
gelijk in de vorm van documentatie vastgelegd. Een belangrijk deel van het werk 
bestaat uit het inventariseren (en soms reconstrueren) van deze documentatie. 
Juist hierbij is medewerking en inzet vanuit de organisatie waarbij de archivering 
plaatsvindt onontbeerlijk. 

Dit betekent ook dat de ADA-systematiek gebruik maakt van de zogenaam- 
de conversie- en migratiestrategie, waarbij data leesbaar blijven door aanpassing 
van media en formaten aan veranderende technologische omgevingen. Om data 
zo weinig mogelijk te laten ‘migreren’ wordt doorgaans geconverteerd uitgevoerd 
naar een standaard, zo mogelijk software-onafhankelijk, dataformaat. In de ADA- 
aanpak wordt geen gebruik gemaakt van software-emulatoren om verouderde da- 
taformaten in hun oorspronkelijke vorm te blijven aanspreken. Aanbevolen wordt 
wel om altijd een exemplaar van de data in het oorspronkelijke formaat te bewa- 
ren, omdat conversiefouten niet uit te sluiten zijn en documentatie te kort kan 
schieten. Tijdens de uitvoering van een ADA-project wordt overigens wel gebruik 
gemaakt van op emulatieprincipes gebaseerde software voor het bekijken en con- 
verteren van obsolete medium- en bestandsformaten. 

Een probleem bij de archivering van oude digitale bestanden is dat de beschik- 
bare informatie en documentatie over deze bestanden vaak beperkt of zelfs non- 
existent is, waardoor het lastig of zelfs onmogelijk wordt om de waarde van het 
bestand vast te stellen. Bij voorbaat is dus niet altijd duidelijk of het bestand ei- 
genlijk wel voor archivering geselecteerd dient te worden. Uit het ADA-project is 
echter gebleken — en dit is conform de ervaringen met papieren archivering vol- 
gens het herkomstbeginsel (respect des fonds, Provenienzprinzip, principle of pro- 
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venance) van archiefbescheiden — dat contextuele informatie indicaties oplevert 
voor de mogelijke waarde van het bestand. Dit is echter informatie van een hoger 
niveau, en het principe dat contextinformatie gebruikt wordt voor selectie op een 
lager niveau gaat op voor de hele digitale archiveringsketen. Hoe gedetailleerder 
wordt gewerkt, des te tijdrovender is de arbeid. Door op hoger gelegen niveaus te 
selecteren kan later veel werk worden bespaard. 

De totale omvang van een ADA-project is afhankelijk van de omvang van de 
organisatie waarbij de digitale archivering plaatsvindt en de schaal waarop digitale 
archiefvorming heeft plaatsgevonden. De complexiteit van het project is afhanke- 
lijk van de ontwikkeling die de IT-infrastructuur heeft doorgemaakt. Het succes 
van het project wordt sterk beïnvloed door de bereidheid en mogelijkheid tot me- 
dewerking aan het project door de medewerkers van de organisatie zelf. 


6.2 De zeven fasen van de ADA-aanpak 


6.2.1 Omgevingsbeschrijving 


De eerste fase kan worden beschouwd als een verkenning of een voorstudie, nodig 
om een verantwoord projectplan op te stellen voor de hele digitale archiveringscy- 
clus. In deze fase wordt op het meest globale niveau de informatietechnologische 
infrastructuur en organisatorische context beschreven waarin de digitale datapro- 
ductie (archiefvorming) heeft plaatsgevonden. Deze beschrijving geeft een indi- 
catie van de aard en orde van omvang van het te verwachten digitale archief. Ook 
worden de doelen van het project (en de gehele digitale archivering) nader gespe- 
cificeerd. Welke tijdsperiode en welke activiteiten of onderdelen van de organisatie 
zijn bij het project betrokken? 


Resultaat Interimrapport 1 

Bronnen Beleidsrapporten, automatiseringsplannen, gesprekken met staf en 
automatiserings- of ICT-medewerkers 

Aanpak Rapportanalyse, interviews 

Benodigde tijd Afhankelijk van omvang en complexiteit van de organisatie van de di- 


gitale archiefvormer: één week tot enkele maanden 
Benodigd specialisme Informatie-analyse, specialist digitale archivering (schaal 9-10) 


Opzet van Interimrapport 1: Omgevingsbeschrijving 

— Organisatorische context van de digitale archiefvormer 

- Beschrijving van de IT-infrastructuur en de ontwikkeling daarvan 
— Hardware 

— Netwerken 

- Software 

- Gehanteerde datastandaarden 

— Doelen van het digitale archiveringsproject 

- Criteria voor prioriteiten 

— Doelen met betrekking tot de opslag 

- Doelen met betrekking tot de toegankelijkheid 

— Randvoorwaarden voor de uitvoering van het digitale archiveringsproject 
- Medewerking (inzet, rol) van betrokken partijen 
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- Stuurgroep, besluitvorming en prioriteitsvorming in het project 

- Deliverables en mijlpalen 

- Risicofactoren 

— Aard en organisatie van de digitale informatieproductie 

- Digitaliseringprocessen (organisatie van de digitalisering) 

- Overzicht van digitaliseringprojecten en daarbij betrokken medewerkers 


6.2.2 Materiaalafbakening 


In de tweede fase wordt een materiaalafbakening opgesteld op het niveau van sy- 
stemen en media. Welke systemen (hard- en software) zijn precies gebruikt bij de 
dramaproductie en op welke media zijn de gegevens opgeslagen (geweest)? Het is 
duidelijk dat zich hierbij al selectie- en prioriteitsvragen gaan voordoen. Het is dan 
ook expliciet de bedoeling dat aan het eind van deze stap is nauwkeurig is gefor- 
muleerd op welke systemen en media het vervolg van het project zich zal richten. 
Een selectie in hoofdlijnen (media, functiegroepen van bestanden) heeft dan al 
plaatsgevonden. Een voorbeeld: als in de eerste fase van het project is besloten dat 
het doel van het ADA-project zich beperkt tot wetenschappelijke data en dat ad- 
ministratief-organisatorische gegevens niet bij de archivering worden betrokken, 
wordt in stap 2 vastgesteld welke systemen (en versies van systemen) voor weten- 
schappelijk werk werden gebruikt. Puur administratieve systemen (bijvoorbeeld 
voor financiéle en personele administratie) hoeven in deze stap (in dit voorbeeld) 
niet nader te worden geinventariseerd. 

Er moet ook een complete lijst komen van media waarop de data zijn opgesla- 
gen, van mainframe tapes tot 5,25” floppy disks tot zipdrives en backup-cassettes. 
Het is overigens niet altijd mogelijk om hierbij in het vervolg van het project ca- 
tegorieén van data uit te sluiten, omdat opslagsystemen doorgaans geen rekening 
houden met de aard van de informatie. Op basis van de in deze fase verworven 
informatie kan een globale inschatting worden gemaakt van de te verwachten pro- 
blemen met de leesbaarheid en interpreteerbaarheid van de media en formaten. 


Resultaat Interimrapport 2; documentatie van de geselecteerde opslagmedia (per 
systeem) 
Bronnen Gesprekken met staf en automatiserings- of ICT-medewerkers, inven- 


tarisatie van gebruikte (en nog aanwezige, verouderde) computer- en 
opslagsystemen, inventarisatie van media en opslaglocaties 


Aanpak Interviews, inspecties on-site 


Benodigde tijd Afhankelijk van omvang en complexiteit van de computerinfrastruc- 
tuur van de digitale archiefvormer: één week tot enkele maanden 


Benodigd specialisme _Informatie-analist, specialist digitale archivering (schaal 9-10) 


Opzet van Interimrapport 2: Materiaalafbakening 

— Aanwezige media 

— Bij het project te betrekken systemen 

- Tijdsafbakening van bij het project te betrekken digitale collecties (lopend/actueel/afgesloten) 
— Globale omvang naar type medium 

— Wijze van opslag/beschikbaarheid van de media 

Beleidsaspecten en criteria voor prioriteiten 
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Te documenteren kenmerken van opslagmedia: 

- Type: bijv. floppy disk, diskette, tape, CD-ROM, cassette, ZIP-drive, MO-drive 
- Formaat: bijv. 8/5,25/3,5 inch, bandbreedte, spoelgrootte, aantal sporen 

— Dichtheid: sporen/sectoren/blokken, SS/DS LD/SD/DD/HD, 800/1600/6250 BPI 
- Fabrikant: relevant bij specifieke systemen, bijv. van tape streamers 

- Besturingssysteem: CP/M, DOS, Windows, MVS, Unix, etc. (en versie) 

— Hardware: DEC Vax, SUN Sparc, Apple Ile, CDC Cyber 

- Datering: aanduiding van periode van gebruik 

— Opmerkingen: 


6.2.3 Selectie en inventarisatie van projecten 


In de derde fase vindt een selectie op projectniveau plaats. Daartoe wordt een in- 
ventarisatie van archiefbestanddelen opgesteld, uiteraard alleen van die systemen 
en media die in het vervolg van het project worden betrokken, zoals in fase 2 vast- 
gesteld. Onder archiefbestanddeel wordt verstaan: het geheel van archiefbeschei- 
den (bestanden) binnen het digitale archief, bijeengebracht met een bepaald doel 
en in onderlinge samenhang te raadplegen. Deze te verzamelen informatie bestaat 
(bij archiveringsprojecten van wetenschappelijke data) overwegend uit projectin- 
formatie en is nog niet afhankelijk van de vraag of de media en formaten van de 
data nog wel gelezen kunnen worden. Op grond van jaarverslagen, onderzoeks- 
rapporten en gesprekken met onderzoekers wordt een lijst opgesteld van welke ar- 
chiefbestanddelen zijn opgebouwd. Hierbij wordt ook zoveel mogelijk per project 
vastgesteld welke systemen en media (uit stap 2) zijn gebruikt bij het aanleggen 
en opslaan van de archiefbestanddelen. Ook wordt een indicatie verkregen van de 
omvang en homo- dan wel heterogeniteit van de bestanddelen. Hoeveel medewer- 
kers waren bij het project betrokken? Werkte men met één of meer systemen? Hoe 
omvangrijk waren de aangelegde bestanddelen? Wat is de waarde voor toekomstig 
onderzoek? Dit zijn enkele van de vragen waarop aan het eind van stap drie een 
antwoord is verkregen, op grond waarvan bepaald kan worden welke projecten 
wel en welke niet voor digitale archivering in aanmerking komen. 


Resultaat Selectie en inventarisatie van projecten en bijbehorende opslagmedia 

Bronnen Beleidsrapporten, automatiseringsplannen, gesprekken met staf en 
automatiserings- of ICT-medewerkers 

Aanpak Selectie en documentatie d.m.v. rapportanalyse, interviews 

Benodigde tijd Afhankelijk van omvang en complexiteit van de organisatie van de di- 


gitale archiefvormer: één week tot enkele maanden 
Benodigd specialisme Informatie-analyse, specialist digitale archivering (schaal 9-10) 


Te documenteren kenmerken van projecten: 

— Naam, adres, woonplaats, etc.: NAW-gegevens van de hoofdonderzoeker/projectleider 

— Werktitel project (Nederlands/Engels) 

— Tijdsperiode: begin- en eindjaar van de periode waarop het project betrekking heeft 

— Geografisch gebied: gebied waarop het project betrekking heeft 

— Discipline/Onderzoeksthema: vakgebied en onderdeel daarvan 

- Bronnen: globale aanduiding van gehanteerde bronnen (bijv. enquêtes, bevolkingsregistra- 
ties, boedelinventarissen, etc.) 

— Onderwerp van onderzoek: beknopte omschrijving van het onderzoek 

— Type observatie-eenheden: bijv. personen, huishoudens, etc. 
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— Aantal variabelen: globale aanduiding van het aantal velden 

- Aantal bestanden: indien meer dan één 

- Omvangindicatie: in bytes 

— Aantal records: globale aanduiding van het aantal regels 

— Opslagmedium/formaat 

— Looptijd project: start- en einddatum van het project 

— Mede-onderzoekers: namen van andere direct bij het project betrokkenen, samenwerkings- 
partners 


6.2.4 Mediumconversie en documentatie op het niveau van dataclusters 


Pas in de vierde fase wordt de inhoud van de geselecteerde media, systemen en ar- 
chiefbestanddelen nader geïnventariseerd en beschreven in termen van groepen 
van bestanden, in de ADA-terminologie ook wel aangeduid als dataclusters. Deze 
clusters vertonen een logische samenhang en/of een inhoudelijk-organisatorische 
eenheid. De criteria voor wat als een cluster wordt beschouwd zijn enigszins arbi- 
trair, maar aangezien het bij digitale informatie altijd om virtuele eenheden gaat is 
dit geen bezwaar. In een latere fase kunnen desgewenst aanpassingen op de clus- 
terindeling worden aangebracht zonder consequenties voor de daarin opgeslagen 
informatie. Voorbeelden van clusters zijn: een projectmap (directory) op een har- 
de schijf, een diskette, een groep bij elkaar behorende database-files die door de- 
zelfde applicatie worden aangesproken, de CD-ROMs met images van hetzelfde 
project, etc. Als achteraf blijkt dat de diskette twee directories met gegevens van 
verschillende projecten bevat, die beter gesplitst kunnen worden in twee clusters, 
of dat een extra CD-ROM bij de collectie behoort, dan kan dat gebeuren zonder 
nadelige consequenties voor de verdere verwerking. 

Bij deze stap dient ook voor het eerst aandacht besteed aan de leesbaarheid en 
interpretatie van de media en systemen waarop de dataclusters zijn opgeslagen. Er 
worden gereedschappen gebruikt om de mapstructuur en de inhoud van de map- 
pen te kunnen lezen, die niet meer leesbaar zijn met standaard-tools. Verouderde 
media die verondersteld worden data clusters te bevatten worden zo nodig gecon- 
verteerd naar moderne media. Voor zover DANS zelf niet in staat is de conver- 
sie uit te voeren, wordt deze uitbesteed aan gespecialiseerde instellingen zoals het 
Computermuseum van de UvA. 

Het is mogelijk en zelfs waarschijnlijk dat er een groep opslagmedia opduikt 
waarvan de inhoud bij gebrek aan enige documentatie totaal onbekend is. De hoe- 
veelheid speurwerk die nodig is om deze media althans op clusterniveau te docu- 
menteren is niet van tevoren te ramen. Hier is doorgaans kennis en inzet van de 
eigenaar van de data vereist. Vervolgens wordt de selectie gemaakt van de in fase 5 
te documenteren databestanden. 
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Resultaat Geconverteerde/leesbare media; documentatie van de geselecteerde 
dataclusters 


Bronnen Geselecteerde media 


Aanpak Selectie databestanden. Conversie van oorspronkelijke media en for- 
maten naar hedendaagse; lezen van media en directories/mappen; in- 
voer van clusterinformatie in database 


Benodigde tijd Conversie: afhankelijk van de hoeveelheid, gangbaarheid, omvang en 
variéteit van de media en opslagformaten. 
Documentatie: afhankelijk van de hoeveelheid dataclusters 


Benodigd specialisme Conversiespecialist/systeembeheerder/computerkundige (evt. uitbe- 
steed); data-archivist/documentalist (schaal 8-9) 


Te documenteren kenmerken van dataclusters: 

— Naam: naam van het cluster 

— Type: map, database catalog, etc. 

— Locatie: onderdeel van medium/map (padnaam) 

- Grootte: in bytes 

— Aantal onderliggende mappen 

- Aantal bestanden 

— Datum gemaakt 

— Opmerkingen: relevante aanvullende informatie, bijv. conversiegeschiedenis, backups, 
compressie 

NB: Bij ZIP-archives is aan de orde: het aantal gecomprimeerde bestanden, de compressiegrootte 
en de oorspronkelijke omvang, de compressiefactor, de SFX module size, etc. 


6.2.5 Documentatie op bestandsniveau en conversie naar standaardformaat 


In de vijfde fase worden de voor archivering geselecteerde bestanden gedocumen- 
teerd op het niveau van het bestand of de database, in DANS-terminologie de da- 
taset. Bij de selectie vindt tevens versie-analyse plaats, op grond waarvan ontdub- 
beling en opschoning plaatsvindt. 

In eerste instantie dient de graad van detail waarop de bestandsdocumentatie 
plaatsvindt te worden vastgesteld. DANS hanteert voor de documentatie van be- 
standen een beschrijvingsmodel dat is gebaseerd op het standaard studiebeschrij- 
vingsschema van de sociaal-wetenschappelijke data-archieven. Dit schema heeft 
zich ontwikkeld tot het DDI (Data Documentation Initiative) en is thans als XML 
schema gespecificeerd.“ 

Bij DANS worden datasets standaard beschreven in een op het DDI-schema 
gebaseerd systeem op het niveau van de Study, de Files en de Other Related Ma- 
terials.” In de ADA-fasering behoort deze laatste categorie (die bijvoorbeeld ook 
publicaties op grond van de bestanden bevat) tot het zesde niveau. Het is noodza- 
kelijk om in overleg met de organisatie waarbij de archivering plaats vindt de ge- 
hanteerde niveaus en de gewenste detaillering van de documentatie af te spreken. 

Bij DANS worden bestanden geconverteerd naar een standaardformaat. Voor 
gestructureerde datasets in tabelvorm en voor tekstbestanden is dat het applicatie- 
onafhankelijke ASCII- of XML-formaat, voor statistische bestanden het SPSS por- 
table format. Het is ook mogelijk voor een ander standaardformaat te kiezen dat 
aansluit bij de huidige of toekomstige infrastructuur van de organisatie waarbij de 


44 Zie: <http://www.icpsr.umich.edu/DDI/index.html> 
45 Dit is het DDDI of Dutch DDI. 
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archivering plaatsvindt. In de nabije toekomst is archivering in het XML-formaat 
een optie. 


Resultaat Naar standaardformaat geconverteerde bestanden (ASCII, SPSS-porta- 
ble of ander, in overleg vastgesteld formaat); bestandsdocumentatie 
op van tevoren vastgelegde aspecten (keuze van graad van detaille- 
ring tussen minimale en maximale variant, conform DDI) 


Bronnen Geselecteerde dataclusters 


Aanpak Conversie van oorspronkelijke bestandsformaten naar standaardfor- 
maat; documenteren van bestanden 


Benodigde tijd Conversie: afhankelijk van de hoeveelheid, omvang, variéteit en com- 
plexiteit van de data clusters. Documentatie: afhankelijk van de hoe- 
veelheid geselecteerde databestanden 


Benodigd specialisme Conversiespecialist /data base specialist (schaal 9-10); data-archivist/ 
documentalist (schaal 8-9). 


Minimaal te documenteren kenmerken van databestanden: 

- Bestandsnaam: filenaam en extensie 

- Bestandstype: bijv. Microsoft Excel Worksheet, WordPerfect 5.1 bestand, dBASE III database 

- Toelichting bestandstype: in het geval van onbekende of niet gegeven extensies 

— Openen met: software waarmee bestand kan worden geopend/bekeken/bewerkt 

— Locatie: bijv. padnaam op schijf 

- Grootte: in bytes 

— Datum: hierbij kan in sommige gevallen onderscheid worden gemaakt naar de datum waarop 
een bestand is gecreëerd, voor de laatste keer is bewerkt/opgeslagen en voor de laatste keer is 
geopend/bekeken 

— Auteur: naam van degene die het bestand heeft gecreëerd 

- Bedrijfsnaam: naam van het bedrijf of de instelling 

— Laatst opgeslagen door: naam van degene die het bestand het laatst heeft opgeslagen 

- Titel: titel van document of bestand 

NB: in sommige gevallen kunnen aanvullende gegevens beschikbaar zijn, zoals: onderwerp, cate- 
gorie, trefwoorden, revisienummer, etc. 


Maximale bestandsdocumentatie volgens het standaard DDI-schema (samenvatting): 

— Document Description - This is essentially ‘header’ or citation information about the marked 
up DDI instance itself. You may decide to use only a few of the elements in this section. 

— Study Description - This section describes the study at a broad level and includes information 
on geographic and temporal scope as well as methodological information. 

- Files Description - This section is a description of the physical data file(s) in terms of record and 
variable counts, logical record length, etc. 

- Data (Variables) Description - This section presents detailed information on each data item, in- 
cluding question text, variable label, category labels and values, etc. 

- Other Related Materials - Other documents or files related to the study. 


— Bron: <http://www.icpsr.umich.edu/DDi/users/intro-use.htmbb 


6.2.6 Documentatie op gegevensniveau 


In de zesde fase wordt de structuur en inhoud van ieder bestand beschreven en ge- 
documenteerd. Bij gestructureerde bestanden met een tabelstructuur wordt het 
codeboek op orde gebracht. In DDI-termen is dit de Data Description, waarin alle 
voorkomende variabelen of velden per file worden vermeld met daarbij gebruik- 
te codes. In de praktijk van DANS wordt de informatie op het variabelenniveau 
doorgaans gedocumenteerd in het systeem waarin zij beschikbaar is (bijv. SPSS, 
codeboek als Word-bestand), omdat deze documentatiefase het meest arbeidsin- 
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tensief is.“ Ook kan aanvullende informatie (zoals vragenlijsten, bronnenover- 
zichten, projectverslagen, gerelateerde publicaties) worden gedocumenteerd en 
opgeslagen, hetzij op papier, hetzij gescand als PDF-documenten. 

Bij de standaardwerkwijze van DANS worden in deze fase ook controles uitge- 
voerd op de integriteit van de data (is de gegevensdocumentatie in overeenstem- 
ming met de bestandsinhoud en -structuur?). Indien afwijkingen worden gecon- 
stateerd (bijvoorbeeld niet-gedocumenteerde codes of velden) is het mogelijk data 
cleaning toe te passen (structuuraanpassingen en correcties op data en/of docu- 
mentatie). Dit vergt doorgaans diepgaande kennis en analyse van de data. Het op- 
schonen van gegevens is bijzonder arbeidsintensief en daarom kostbaar. Data clea- 
ning of ‘digitale restauratie’ is ook niet de verantwoordelijkheid van een archief, 
maar die van de archiefvormer, in casu de onderzoeker. 


Resultaat Documentatie op gegevensniveau; Bestandsstructuur; Variabelenlijs- 
ten/codeboeken/DTD's 

Bronnen Geselecteerde databestanden 

Aanpak Documenteren bestanden op variabelenniveau; codeboeken op orde 


brengen; controle op integriteit gegevens uitvoeren 


Benodigde tijd Documentatie: afhankelijk van de aantallen databestanden en varia- 
belen, de staat van de aangeleverde documentatie en de uitkomsten 
van de integriteitscontrole 


Benodigd specialisme Specialist data-archieven (schaal 9-10); data-archivist/documentalist 
(schaal 8-9) 


Te documenteren: variabelenlijst/codeboek: 
- Variabele 
— Variabele-label 


— Type 

— Posities 

- Code 

- Code-label 


6.2.7 Bewaring en toegankelijkheid 


De toegankelijkheid van de gecreéerde metadata (of documentatie) en van de ge- 
gevensbestanden zelf wordt geregeld in de zevende fase. Er zijn hier verschillende 
opties: een instelling kan ervoor kiezen om (kopieén van) het digitale materiaal 
over te dragen aan DANS en een overeenkomst af te sluiten over de beschikbaar- 
heid voor hergebruik. DANS hanteert standaard een overdrachtsovereenkomst 
waarin de voorwaarden voor toegang, auteursrechtelijke aspecten en de beveili- 
ging van privacygevoelige informatie worden geregeld. 

DANS hanteert verschillende toegangsniveaus, variérend van volledige publie- 
ke toegankelijkheid, via toegankelijk voor (bepaalde categorieén) onderzoekers tot 
ontoegankelijk voor een bepaalde duur. Aanbevolen wordt om in ieder geval een 


46 Ook reconstructie en restauratie van beschadigde data en onvolledige documentatie is zeer 
arbeidsintensief. 
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kopie van de databestanden bij DANS te deponeren voor bewaring. Dit is in prin- 
cipe kosteloos voor de betrokken instelling. Een andere mogelijkheid is dat een 
instelling zowel de opslag als de toegang tot de gearchiveerde informatie geheel in 
eigen beheer neemt. 


Resultaat Afspraken tussen NHDA en instelling m.b.t. opslag, beheer van en 
toegang tot de gearchiveerde bestanden. Opslag, beheer en verstrek- 
king van toegang tot de gearchiveerde bestanden 


Bronnen Geselecteerde en volledig gedocumenteerde databestanden 


Aanpak Overleg tussen NHDA en instelling; permanent beheer en toegang 
databestanden bij het NHDA of de instelling (via een website) creé- 
ren en in stand houden 


Benodigde tijd Enige tijd voor overleg nodig; afhankelijk van de grootte, complexi- 
teit en aard der databestanden enige weken tot maanden om toe- 
gankelijkheid te verzorgen 


Benodigd specialisme Specialist data-archieven (schaal 9-10); data-archivist/documentalist 
(schaal 8-9) 


52 DE ADA-AANPAK VOOR DIGITALE ARCHIVERINGSDIENSTEN 


Bijlage A 


De financiéle haalbaarheid van digitale archiveringsdiensten 


1. Inleiding 

Dit hoofdstuk gaat nader in op de financiéle haalbaarheid van digitale archiverings- 
diensten. In vrijwel alle publicaties van de laatste paar jaar, die aandacht besteden 
aan het kostenaspect van digitaal archiveren, wordt geconstateerd dat het (nog) 
niet mogelijk is een volledig of betrouwbaar overzicht te geven van alle mogelij- 
ke kosten, die bij langetermijnbewaring kunnen optreden. Zoals Maggie Jones en 
Neil Beagrie in het door hen geschreven verschenen handboek over het managen 
van het digitaal archiveren formuleren: “......costs for both technical and organisa- 
tional infrastructure are still not well defined.” 

Een van de door hen geconstateerde problemen is dat het praktisch onmoge- 
lijk is om de kosten, die nodig zijn voor het bewaren op zichzelf te scheiden van de 
kosten, die voor het toegankelijk maken van de data nodig zijn.“ Meer in het alge- 
meen gesteld spelen digitale archiveringsprojecten zich vaak in heel diverse kaders 
af. Dat staat nog los van feit dat daarbij de in hoofdstuk 1 gememoreerde context- 
verschillen een rol kunnen spelen. Een veel voorkomend verschijnsel is bij digitale 
archiveringsactiviteiten dat deze onderdeel zijn van een groter geheel (project of 
infrastructurele voorziening) waardoor het niet mogelijk is de eigenlijke archive- 
ringskosten van andere te scheiden. Daarbij moet in ieder geval aan de overhead- 
kosten gedacht worden van het instituut waar de digitale archiveringsprojecten 
zich afspelen, in het bijzonder wat betreft de IT-infrastructuur, zowel in materieel 
als in personeel opzicht. Digitale archivering kan ook ‘meegenomen’ worden in 
digitaliseringsprojecten. Door dit alles zijn kosten van digitale archiverings-pro- 
jecten of diensten onderling moeilijk vergelijkbaar. 

Zelfs wanneer de kosten van digitale archivering beperkt worden tot opslag- 
kosten, blijft het moeilijk deze vast te stellen. Stephen Chapman publiceerde in 
2003 een onderzoek naar de prijsvorming van digitale archivering. Hij vergeleek 
de kosten, zoals berekend aan derden, van de opslag van digitale bestanden in de 


47 Jones en Beagrie (2001). 
48 Jones en Beagrie (2001), 21-22. 
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Amerikaanse OCLC (Online Computer Library Center) met die van boeken in de 
universiteitsbibliotheek van de Harvard University. Hij constateerde dat in beide 
gevallen de opslagkosten door een aantal variabelen bepaald wordt: het overeen- 
gekomen serviceniveau, het soort depot en de wensen van de eigenaar met betrek- 
king tot het aantal collecties, het aantal bestanden/boeken, het aantal versies en 
de variatie in formaten. Beslissingen over aantallen formaten en versies zijn van 
doorslaggevend belang voor de feitelijk betaalde prijs, aangezien deze zowel door 
het OCLC als door de Harvard bibliotheek op basis van de grootte van het materi- 
aal wordt vastgesteld. Van belang hier is vooral zijn constatering dat er op dit mo- 
ment geen kostenmodellen voor digitale duurzaamheid, de kosten om ‘eeuwige’ 
bewaring te kunnen garanderen, zijn ontwikkeld. Het OCLC kan nu ook geen on- 
eindige zekerheid bieden; het vormt geen onderdeel van het contract.” 

Het ADA-project heeft bepaalde unieke eigenschappen: het is met name ge- 
richt geweest op het achteraf archiveren van data en heeft het zich in een speci- 
fieke productieomgeving afgespeeld, die van het NIWI. Het ADA-project vertoont 
daardoor nog de meeste gelijkenis met het in hoofdstuk 2 vermelde Britse data-ar- 
chief NDAD. Kevin Ashley (verbonden aan het NDAD) heeft enige jaren geleden 
in een publicatie met betrekking tot het kostenaspect van het digitaal archiveren 
aangegeven dat in hoofdlijnen zeventig procent van de kosten uit arbeidskosten 
bestaan. Dat betreft alle soorten activiteiten. De meeste tijd wordt besteed aan wat 
hij noemt ‘depositor liaison’: het contact en overleg met de opdrachtgever/beheer- 
der van de data. Met andere woorden: het boven water krijgen, van de metadata en 
contextinformatie. De grootste kostenpost daarna wordt gevormd door kapitaal- 
en onderhoudskosten voor de hard- en software ten behoeve van de ontsluiting. 
Zoals door meer experts is vastgesteld: de grote kosten liggen niet zozeer in de op- 
slag op zichzelf. Het volume van de opslag is een relatief inelastische kostenpost.” 
Zijn conclusies komen in grote lijnen overeen met die van het ADA-project. 

Gelet op de bovenstaande problemen van vergelijkbaarheid en specifieke 
productieomgeving is het niet goed mogelijk uit het ADA pilot-project een alge- 
meen overzicht van de kosten van de langetermijnbewaring van onderzoeksdata te 
distilleren. Er is daarom voor gekozen de kosten van het ADA-project hier op een 
zo pragmatisch mogelijke wijze weer te geven. Een overzicht wordt gegeven van de 
werkelijk gemaakte kosten binnen het ADA-project (A.2), gevolgd door de kosten 
van een specifiek deel daarvan: de bouw van de documentatie-tabel ten behoeve 
van de inventarisatie (A.3). Tenslotte wordt in een tabel (A.4) aangegeven welke 
kosten bij een toekomstig ADA-project in grote lijnen kunnen gaan optreden. 


49 Chapman (2003). 
50 Ashley (2000). 
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2 Totale kosten ADA-project 

Ter toelichting moet gezegd worden dat in de tabel A.1 een onderscheid is ge- 
maakt tussen de uitvoering van het pilot-project en de overige werkzaamheden 
(werkpakketten volgens het oorspronkelijke projectplan). De laatste hebben be- 
trekking op het onderzoek gehad, evenals de overige kosten (reiskosten en aan- 
schaf literatuur). Het pilot project heeft dientengevolge 88290,88 euro gekost (de 
personele kosten + de materiéle kosten). Daarnaast moet benadrukt worden dat 
de door het Meertens Instituut gemaakte kosten hierin niet zijn opgenomen. 


Tabel A.1 Kosten totale ADA-project 


Kosten ADA-project, in euro’s 


Personele kosten per onderdeel 


Opzet pilotproject 4696,63 
Verkenning (inter)nationale ontwikkelingen 19078,51 
Marktonderzoek 30840,74 
Uitvoering pilotproject 85989,31 
Opstellen eindrapport 16743,83 
Totaal personele kosten 157322,00 
Totaal materiéle kosten 2301,57 
Totaal overige kosten 1068,93 
Totale projectkosten 160692,50 


3 Kosten bouwen tabel voor de inventarisatie 

In het volgende (tabel A.2) worden de kosten, weergegeven als uren, weergegeven 
van de productieve werkzaamheden van de eerste fase, dat wil zeggen de inventa- 
risatie, de selectie en de classificering op data-clusterniveau (zie paragraaf A.3.3). 

Daarbij is de volgende inzet niet meegerekend: 

Extern uitgevoerde dienstverlening 

Ontwikkeling van procedures 

Doorlopende tijdskosten: communicatie en Bitfaciliteiten 

Doorlopende beheerskosten 


Het materiaal is in twee subsets bewerkt. Als gevolg daarvan zijn twee tabellen ont- 
staan, de ‘moedertabel’ (a) met respectievelijk 1900 records en de complementaire 
clustertabel (b), op basis van 12 harde schijven, met 200 records (b). 

Vervolgens is een reconstructie gemaakt. Dat wil zeggen dat een schatting is 
gemaakt van het aantal uren dat voor deze activiteiten benodigd is, met de kennis 
die wij achteraf hebben, waardoor de tabel direct kan ontstaan, zonder het vallen 
en opstaan van de eerste keer tijdens het ADA-project. Ontwikkelkosten, zoals 
het normaliseren van de tabel, zijn daarbij uiteraard niet meegerekend. Daardoor 
komt het aantal uren aanmerkelijk lager uit. Bij de reconstructie is rekening ge- 
houden met de reéle omvang van de dataset (bijna 1500 dataclusters), de huidige 
eindsituatie. Voor de hiermee corresponderende hoeveelheden zie de tabellen 2.1 
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Tabel A.2 Reéle situatie proefproject - inzet in uren 


Activiteit MI inzet EE Uran 
1 opzet & bouw structuur FM-moedertabel (a)* 8 4 12 
2 inventarisatie & documentatie (a) 210 21 231 
3 retro aanvullende invoer & verrijking (a) 100 42 142 
4 clustertabel (b) : structuur. 0 8 8 
5 classificatie (a), (b) ad 3 0 0 
6 clusteren (vooral (b)) ad 3 0 0 
7 inventarisatie + basisdocum. complem.tabel (b) 0 66 66 
8 selectie (a), (b) 20 0 20 
9a aanvullende documentatie (2 velden; subset Brieven 0 3 3 
aan de Toekomst)* 
9b verrijking met 4 inhoudelijke velden (b) ad 3 0 0 
10 normalisatie moedertabel pm 0 
144 482 


* FM = Filemaker MI = Meertens Instituut 


en 3.1. Ook de mate van dienstverlening, het ‘basis+’-niveau met aanvullende ver- 
rijking van 4 inhoudelijke velden, is aan de Meertens-casus ontleend 

Deze berekening komt uit op een inzet van 253,8 uur, ofwel van bijna 32 werk- 
dagen. Aan NHDA-kant liggen de werkzaamheden voornamelijk op het niveau 
van data-archivist (schaal 8) en IT-medewerker (schaal 6). 


Tabel A.3 Reconstructie proefproject - inzet in uren 
(MI) NHDA NHDA 


Activiteit inzet inzet8 inzet 6 Totaal uren 
1 structuur clustertabel (a): 1600 losse media 0 8 0 8 
2a inventarisatie + basisdocumentatie (1550 x 3 %) 0 0 76 76 
2b inventarisatie t/m documentatie basis+ (50x5%) 0 0 16 16 
4 structuur complementaire clustertabel 0 0 0 0 
Aa facilitering inventarisatie (2; 7b) 0 8 0 8 
5 classificatie 40 13,2 0 53,2 
6 clusteren (ad 2 inventarisatie) - - - - 
7a inventarisatie + basisdocum. complem.tabel (b) - - - - 
7b verrijking ‘basis+’niveau (2a) en (b) 0 0 66 66 
8 selecteren | (clusters) 20 6,6 0 26,6 
9 inhoudelijke verrijking van selectie (met 4 - - - - 
inhoudelijke velden) 
Totaal reconstructie 1e fase 60 35,8 158 253,8 uur 


4 Kosten ADA-aanpak 

Tabel A.4 geeft de kosten aan, die bij een toekomstig ADA-project in grote lijnen 
kunnen gaan optreden. Deze tabel volgt de indeling van de in deel II beschreven 
‘ADA-aanpak, die, gebaseerd op de ervaringen van het ADA pilot-project, een 
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verder uitgewerkte toekomstige aanpak van digitale archiveringsprojecten biedt. 
In de tabel is rekening gehouden met de verschillende modules waaruit een ADA- 
project kan bestaan. Ook is verdisconteerd dat de bijdrage van de opdrachtgever 
meer of minder intensief kan zijn. 


Tabel A.4 Kostenoverzicht volgens de ADA-aanpak 


Activiteit Kosten NHDA Kosten opdrachtgever 


1. Omgevingsbeschrijving Bijna volledig arbeidskosten speci- Voornamelijk arbeidskosten: 
alist digitale archivering) aanleveren informatie, contact 
en overleg 


2. Materiaalafbakening Voornamelijk arbeidskosten (speci- Afhankelijk van de mate van co- 
alist digitale archivering), mogelijk operatie van de opdrachtgever: 
enige additionele onderzoekskos- minimaal enige arbeidskosten 
ten (uit te besteden voor verouder- voor aanleveren informatie, 


de apparatuur/platforms). contact en overleg 
3. Selectie en inventarisa- Voornamelijk arbeidskosten Afhankelijk van de mate van co- 
tie van projecten (specialist digitale archivering) operatie van de opdrachtgever: 


minimaal enige arbeidskosten 
voor aanleveren informatie, 
contact en overleg, speciaal 
i.v.m. selectie 


4. Mediumconversie en Voornamelijk arbeidskosten (IT- Minimaal enige arbeidskosten 
documentatie data-clus- personeel en data-archivist en spe- voor aanleveren informatie, 
ter niveau cialist digitale archivering). Server contact en overleg, speciaal 
kosten i.v.m. selectie. Documentatie af- 


hankelijk van de mate van coö- 
peratie van de opdrachtgever 


5. Documentatie bestands- Arbeidskosten (IT-personeel, con- Minimaal enige arbeidskosten 


niveau en conversie versiespecialist, data-archivist). Ser- voor contact en overleg 
ver kosten 
6. Documentatie gege- Arbeidskosten (data-archivist, Minimaal enige arbeidskosten 
vensniveau specialist digitale archivering). voor contact en overleg 


Server kosten 


7. Bewaring en ontsluiting Arbeidskosten (data-archivist, spe- Website personeel and IT-staf 
van de data cialist digitale archivering, website- arbeidskosten. Server kosten 
en IT-personeel). Server kosten 


Consultancy (in alle boven- Arbeidskosten (specialist digitale (Arbeids)kosten voor overleg en 
genoemde fasen) archivering) contact 


5 Conclusies financiéle haalbaarheid 

In dit hoofdstuk hebben wij, op grond van de ervaringen opgedaan in het ADA- 
proefproject (zie hoofdstuk 3) en het meer uitgebreide model voor een toekom- 
stige werkwijze (zie hoofdstuk 6), bouwstenen aangeleverd waardoor een idee ver- 
kregen kan worden over de financiële dimensies van de activiteiten. 

Een belangrijke overweging daarbij is dat de ADA-dienstverlening altijd als 
maatwerk zal worden aangeboden. Er is keuze uit een aantal modules mogelijk, 
maar vooral ook de mate waarin een opdrachtgevende instelling meer of minder 
zelf wil doen tijdens het project kan variëren. In het verslag van het pilot-project in 
het derde hoofdstuk komt dat tot uiting en ook in de bovenstaande cijfers. De toe- 
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komstige ADA-aanpak is er dan ook op gericht dat op zijn laatst na de derde fase 
daarvan (de fase ‘documentatie van projecten, zie deel II) een volledig overzicht 
is verkregen van de hoeveelheid te verrichten werk. Vanaf dat moment is het mo- 
gelijk een verantwoorde schatting te doen van de kosten, die nog in het loop van 
de project kunnen optreden. Zoals in paragraaf A.3 is weergegeven komt de uit- 
voering van de productieve werkzaamheden van de eerste fase, dat wil zeggen de 
inventarisatie, de selectie en de classificering op data-clusterniveau (zie hoofdstuk 
3), gebaseerd op 1500 dataclusters, neer op ruim 15.000 euro. Benadrukt moet 
worden dat dit niet alle werkzaamheden betreft, maar het bedrag wordt hier ver- 
meld om van een belangrijk deel van het werkproces een indruk te geven van het 
financiéle prijskaartje. De kosten van het opdrachtgevende instituut zelf zijn hier- 
in niet verwerkt. 

De vraag naar de financiéle haalbaarheid van digitale archiveringsdiensten is 
niet met een simpel ja of nee te beantwoorden. Uiteindelijk zal een opdrachtge- 
vende instelling zelf moeten bepalen of deze het bewaren van databestanden voor 
de lange termijn als een dermate belangrijke activiteit beschouwt dat het hierin 
tijd, geld en/of moeite in wil investeren. Door de gekozen systematiek (zie hoofd- 
stuk 6) is het, samenvattend, mogelijk een toekomstig ADA-project op een dusda- 
nige wijze uit te voeren dat de kostenrisico’s beheersbaar blijven. De opdrachtgever 
kan echter door de modulaire aanpak en het feit dat op allerlei onderdelen ook veel 
eigen menskracht in een archiveringsproject gestoken kan worden, ook in dit op- 
zicht een aanzienlijke eigen inbreng hebben. 
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Bijlage B 


Kencijfers naar soort data 


Aangeleverd 


Selectie fase 1 


Classificatie- Aantal records Getelde Kb Bestanden Kb 

code soort data clusters bestanden? 

data! 

Niet leesbaar 20 1925 

DA 39 439 9976 297 10402 
DM 126 1303 81168 16 827 
DO 675 2216 658658 1822 248383 
DP 10 52 3647 5 528 
DT 107 1730 156726 785 65770 
DX 20 130 25909 51 1450 
PM 27 666 13968 3 1039 
PS 97 2395 2283859 

PU 157 938 4570990 

PX 121 6347 297840 

SB 53 2250 219879 

overig? 7 14 7479 

Totaal 1459 18480? 8.332.031 2979 329.044 


1 De classificatiecodes worden verklaard in Tabel 3.3 op pagina 24. 


2 De aantallen onder ‘Getelde bestanden’ geven de onvolledige gegevens uit de databank weer. 
De onvolledigheid is het gevolg van het feit dat de inventarisatie is gebaseerd op slechts 524 van 


de 1460 clusters. 


3 Samenvoeging van een aantal dubbelcodes. 
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Bijlage C 


BIOM-catalogus 


Datastructuur catalogus 


Hieronder wordt in de tabellen C.1 en C.2 een overzicht gegeven van de veldna- 
men van de beide gerelateerde databanken: de cumulatieve clustertabel CCmd1 en 
de cumulatieve bestandentabel CBmd2. 

Naar hun aard kunnen de velden in vier categorieën van beschrijvingselemen- 
ten of metadata worden onderscheiden (kolom ‘Categorie ): 

- formeel: identificatie van cluster en bestand; ook documentaire informatie 
m.b.t. de elektronische locatie daarvan; 

- inhoud: inhoudelijk verrijkende informatie met betrekking tot een cluster en 
bestand. De informatie in deze velden wordt altijd handmatig toegekend. In 
verband met de vereiste domeinkennis gebeurt dit door of bij de opdrachtge- 
vende partij; 

— beheer: de informatie die van belang is voor het projectbeheer, bijvoorbeeld in 
verband met kwantificering of de retrieval van subsets; 

— technisch: een groep formele gegevens van technische aard. Heeft betrekking 
op zowel clusters als, vooral, op bestanden. 


Met het ADA-niveau; in de vierde kolom, wordt bedoeld het niveau van de beno- 

digde inzet, of anders gezegd, van de gewenste dienstverlening. De indeling speel- 

de in het pilot-project overigens geen enkele rol, maar kan als richtlijn gebruikt 

worden bij toekomstige projecten. Bij de vaststelling van de mate van dienstver- 

lening worden direct de effecten van een keus, in de vorm van de corresponderen- 

de veldenlijst, inzichtelijk. Met betrekking tot de Meertens data zijn drie niveaus 

onderscheiden: 

1. Basis: representeert het basisniveau van de inventarisatie. De informatie van de 
hiertoe gerekende velden is vrijwel altijd automatisch gegenereerd. 

2. Basis+ : basisinventarisatie aangevuld met enige mate van handmatige verrij- 
king. 

3. Plus: variant waarbij supplementair aan basis+ meerdere velden worden ver- 
rijkt. Inzet door of in nauwe samenwerking met de opdrachtgever. 
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Tabel C.1 Structuur cumulatieve clustertabel CCmd1 


VeldNaam 


Categorie 
(metadata) 


Omschrijving en doel van veld 


ADA - 
niveau 


Veld type db 


ada_nr 


Formeel 


Unieke identificatie (naam) van cluster; 
sleutelveld in clustertabel. 

Invoer: afh. van werkproces en brondata. 
Hier met de hand en half-automatisch ge- 
vormd. 


basis 


Tekst 


Platform 


Technisch 


Besturingssysteem van bronaplicatie. 
Invoer: ca automatisch. 


basis 


Tekst 


Medium 


Technisch 


Vorm van de gegevensdrager waarop data 
aangeleverd (1) 
Invoer: ca automatisch 


basis 


Tekst 


TitelHmap 


Formeel 


Elektronische naam voor cluster. 

Vorming afhankelijk van gegevensdrager: 
— hoogste mapniveau in boomstructuur. 
- ‘Titel’; volumelabel (en mapnaam). 

Zie opmerkingen hieronder. 


basis 


Tekst 


Omschr 


Inhoud 


Informatie waarmee het cluster inhoudelijk 
wordt geduid. 

Losse media: ook de etiket-gegevens. 
Handmatige invoer van relevante informa- 
tie. 


basis+ 


Tekst 


Bestanden 


Formeel/beheer 


Aantal files per cluster; kan als controle- 
waarde worden gebruikt bij de conversie. 
automatisch gegenereerd. 


basis 


Num. (Lang) 


Bytes 


Formeel/beheer 


Ruimtebeslag van datacluster. 
Aantal automatisch gegenereerd. 


basis 


Num. (Lang) 


Kb 


Formeel/beheer 


Idem 
alternatieve Kb-equivalent bytes/1024 


basis 


Num. (Enkele 
precisie) 


Srtdata 


Inhoud/beheer 


Door opdrachtgever toe te kennen codering 
cf. de classificatie. Een deel van (commercië- 
le) software (P*) kan geautomatiseerd wor- 
den toegekend. 


plus 


Tekst 


Opmsel 


Beheer 


Door opdrachtgever toe te kennen selec- 
tiecode. De waarde bepaalt of cluster door- 
gaat in het proces. 


plus 


Tekst 


CatMI 


Inhoud 


Door opdrachtgever toe te kennen data be- 
treffende de organisatorische indeling van 
het instituut / organisatie (keuzelijst). [MI = 
hier Meertens Instituut] 


plus 


Tekst 


ProjMI 


Inhoud 


Door opdrachtgever toe te kennen data. Is 
een onderverdeling van CatMI, betreffende 
(deel)projecten (keuzelijst) 


plus 


Tekst 


Eigenaar 


Inhoud 


Door opdrachtgever toe te kennen waar- 
de. Gaat hier om de wetenschappelijk 
verantwoordelijke voor de data in dit clus- 
ter. 


plus 


Tekst 


Opmerking 


Inhoud 


Gegevens van secundair belang (of specifiek 
van aard). 


basis+ 


Tekst 
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Aanvullende opmerkingen bij enige veldnamen uit Tabel C.1: 


Medium 

Met het medium wordt hier bedoeld de gegevensdrager zoals de uitvoerder ze 
heeft ontvangen en bewerkt. Als het materiaal niet in de originele vorm is aange- 
leverd maar als kopie op een ander medium (CD), lijkt het zinvol alleen de ori- 
ginele gegevensdrager te vermelden. In eerste instantie is het veld bedoeld voor 
een eerste visuele schifting op het formaat: bijvoorbeeld diskettes 5%" of 3 %", et 
cetera. Indien binnen dezelfde groep media formatteringsverschillen worden ge- 
constateerd, verdient het aanbeveling, met het oog op de benodigde apparatuur, 
om de tabelstructuur uit te breiden en deze technische specificaties (capaciteit, 
dichtheid) in een apart veld toe te voegen. 


TitelHmap 

Het nieuwe datamodel definieert de context van het bestand op een abstract ni- 

veau, los van het medium. Dit is ook in de tabelstructuur tot uiting gekomen, want 

het betrokken veld “TitelHmap’ bevat de contextinformatie van zowel losse media 
als die gerelateerd aan de harde schijven (directories). 

1. Losse media: het Volume label of de elektronische titel van een diskette of tape. 
Indien de informatie op het diskette was toebedeeld aan meerdere clusters, 
langs de weg van de submappen, dan is aan het volume label de naam van de 
map toegevoegd (voorbeeld: label\mapnaam1; label\mapnaam2). 

2. Data van harde schijven: de hoogste map in de boomstructuur die een da- 
tacluster identificeert. De hierbij mogelijk weggevallen pad-gegevens van de 
hiërarchisch lagere mappen zijn bewaard en toegevoegd als informatie op be- 
standsniveau (‘submap’). 


Opmerking 

Dit veld is bedoeld voor inhoudelijke informatie van secundair belang, en opmer- 
kingen van technische aard met betrekking tot de context (bijv. foutmeldingen). 
De afbakening van het informatiedomein ten opzichte van het veld ‘Omschrijving’ 
dient goed geregeld te zijn.. 


Bytes en Kb 

Deze velden kunnen beide worden gebruikt. Maar dit is afhankelijk van de wijze 
waarop het programma, dat de catalogisering uitvoert, deze waarden sommeert en 
in de uitvoer weergeeft. 
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Tabel C.2 Structuur cumulatieve bestandentabel CBmd2 


VeldNaam Categorie Omschrijving en doel van veld ADA - Veld type 
(Metadata) niveau db 
ada_nr Formeel Is sleutelveld met clustertabel. Waarden in basis Tekst 
huidige tabel niet uniek. 
Automatisch gevormd. 
submap Formeel Aanvulling op >TitelHmap, vooral bij be- basis Tekst 
standen in (sub)mappen. Afhankelijk van 
het feit of de padnaam volledig in > 
TitelHmap is weergegeven. 
Automatisch (met handbewerking). 
b_naam Formeel Bestandsnaam. basis Tekst 
Automatisch gegenereerd. 
type Technisch alleen Mac-data signature: bestandstype. basis Tekst 
auto 
creator Technisch alleen Mac-data signature: code van bron- basis Tekst 
applicatie. 
auto 
mkdat Technisch datum creatie bestand. auto (via ListFiles) basis Datum/tijd 
mktyd Technisch tijdstip creatie bestand. auto (via ListFiles) basis Datum/tijd 
wzdat Technisch datum laatste wijziging. basis Datum/tijd 
auto 
wztyd Technisch tijdstip laatste wijziging. basis Datum/tijd 
auto 
bytes Technisch omvang van het bestand. basis Num. 
auto (Lang) 
checksum Beheer alleen Mac-data. Lokaal door besturings- basis Tekst 
(technisch) systeem berekende code t.b.v. controle 
data integriteit van bestandsversies. 
auto 
SEL Beheer Bestemd voor code van 2e selectie op het plus Tekst 


bestandsniveau. 
In principe handmatige invoer. 
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Bijlage D 


Technische punten conversie 


Bij het bewerken van de brondata zijn enige problemen van technische aard op- 
getreden, die we grotendeels hebben kunnen verhelpen. Vanwege hun algemene 
aard zijn ze kort het vermelden waard. 

De problemen hangen samen met de niet volledige transparantie van de data- 
infrastructuur, en doen zich voor bij platformoverstijgend datatransport. Dit ver- 
eist enige toelichting. Het NHDA zag zich geconfronteerd met data gecreéerd op 
het Mac en het MS-DOS/Windows platform. Als oplossing is besloten zowel het 
bron- als het doelmateriaal op een derde platform op te slaan, een Novell-netwerk- 
schijf, vanwaar de data zowel vanaf de PC als de Mac konden worden benaderd. 

In de loop van het proces hebben zich daarmee problemen voorgedaan; deze 
waren van tweeérlei aard: 


Niet volledige toegang: Onder Mac gemaakte bestanden bleken in een aantal ge- 
vallen niet goed benaderbaar vanaf de PC. Dit was afhankelijk van de naamgeving 
van de context (map) of van het bestand zelf. Concreet manifesteerde zich dit door 
een ‘weigering’ van het besturingssysteem (Windows 98) het bestand op de No- 
vell-schijf te openen (dubbel aanklikken van file in Verkenner-venster). Hieronder 
(1) een voorbeeld van een directory-naam (rechts) die een probleem vormde: 


(1) cl.0302 FM. dinn. 


Naamgevingskwesties: Opgetreden ‘spontane mutaties’ in de naamgeving In 
BIOM komt een aantal pad- en bestandsnamen voor met gewijzigde tekens in het 
high-ASCII spectrum. Een voorbeeld uit BIOM met de naamweergave in de clus- 
tertabel (links) en de bestandentabel: 


(2) Dédé DZdZ 


ARCHIVEREN VAN DIGITAAL ACADEMISCH ERFGOED 


65 


66 


Het volgende voorbeeld geeft een bestandsnaam weer via de Verkenner (links) en 
in BIOM: 


(3) YT204-123p.Y  YT204-1.23p.; 


Ergens in het proces van inventarisatie of (geautomatiseerde) catalogisering, de 
daaropvolgende bewerking van de uitvoer tot proto-tabellen en het uiteindelijke 
inlezen hiervan in een Microsoft Access 97-databank, zijn de wijzigingen opge- 
treden. Ingeval van voorbeeld (2) bestaat het vermoeden dat het combineren van 
een Mac- en een Windows datacatalogus tot deze verschillen aanleiding heeft ge- 
geven. 


Samenvattend 


— Alleen bij platformoverschrijdende databewerkingen was er een probleem 

- Hoofdoorzaak daarvan waren de verschillen in naamgevingsconventie tussen 
de verschillende platforms 

— De high-ASCII waarden in de bestandsnamen zijn niet ongevoelig voor data- 
verkeer over verschillende platforms (en programmatuur en de gebruikte te- 
kensets) 

Met het oog op mogelijke conflicten is het misschien wenselijk om, vooraf- 
gaande aan de conversie, de gehele bronstructuur na te lopen op dergelijke voor de 
PC gevoelige pad- en file-namen. De hier gebezigde vervanging met de hand zou 
desgewenst batch-gewijs uitgevoerd kunnen worden. 

De geconstateerde technische hindernissen, die overigens al decennia bestaan, 
verdienen nader onderzoek, hetgeen in het kader van dit project echter te ver 
voerde. 


Tekst encoding 

De tekstbestanden zijn grotendeels op de Mac ontstaan. Na conversie bleken deze 
op de MAC goed leesbaar te blijven; wanneer de tekstbestanden onder Windows 
geopend werden was dat echter niet het geval. De teksten bleken te zijn opgeslagen 
onder “Western European (Mac)’ encoding, die onder Windows niet goed leesbaar 
is in programmas als WordPad en NotePad. Na opening in MS-Word bleek de 
tekst, na aanwijzing van de juiste encoding wel goed leesbaar. Indien de geopende 
tekst vervolgens als ‘plain text’ met de encoding “Western European (Windows)’ 
werd opgeslagen, bleek deze vervolgens ook onder Windows (inclusief Notepad 
etc.) goed gecodeerd te zijn. 
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Voorbeeld tekst encoding 


Western European (Mac) encoding, zoals dit er uitziet onder Windows: 
I 30-2 Soms beto”verde zOok dÖr zeuntje. Die was nie goed bie zOn o*den a 
zOn wee Os wat mie zOn uutehaele ao, lag On in de dune as On wilde te ke r te 
gaen. 


Van oorsprong Western European (Mac), na opgeslagen te zijn als Western Euro- 
pean (Windows): 
I 30-2 Soms betoöverde zok d'r zeuntje. Die was nie goed bie zn oöd ‘en a zn 
wee ’s wat mie z’n uutehaele ao, lag’n in de dune as ’n wilde te keér te gaen. 
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